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"本 书 的 第 1 版 是 模式 识别 领域 的 莫 基 性 著作 。 而 今 ,Stork 博 士 又 从 近年 这 一 领域 的 最 新 成 果 中 精 选 

出 重要 的 内 容 ， 对 模式 识别 领域 的 发 展 作出 新 的 总 结 ， 并 指明 了 对 未 来 30 年 至 关 重 要 的 问题 。 本 书 风 格 

简明 易 读 ， 新 增 的 图 表 使 得 许多 统计 和 数学 题材 非常 生动 ， 最 终 以 完美 与 和 谐 的 形式 ， 引 导读 者 深入 各 
一 一 Sargur N.Srihari 博 士 .纽约 州立 大 学 布 法 罗 分 校 计算 机 科学 与 工程 系 教授 





开发 和 研究 模式 识别 系统 的 实践 者 ， 无 论 其 应 用 涉及 语音 识别 、 字 符 识 别 、 图 像 处 理 还 是 
信号 分 析 ， 常 会 遇 到 需要 从 大 量 令 人 迷惑 的 技术 中 做 出 选择 的 难题 。 这 本 独一无二 的 教材 及 专 
业 参 考 书 ， 为 你 准备 了 充足 的 资料 和 信息 ， 供 你 选择 最 适合 的 技术 。 作 为 一 本 在 过 去 几 十 年 内 
模式 识别 领域 经 典 著 作 的 新 版 ， 这 一 版 本 更 新 并 扩充 了 原作 ， 重 点 介绍 模式 分 类 及 该 领域 近年 
来 的 巨大 进展 。 本 书 已 被 卡 内 基 - 梅 隆 、 哈 佛 、 斯 坦 福 、 剑 桥 等 120 多 所 大 学 采用 为 教材 。 


本 书 的 特点 : 

清晰 地 阐明 了 模式 识别 的 经 典 方法 和 新 方法 ， 包 括 神经 网 络 、 随 机 方法 、 遗 传 算法 以 及 机 器 学 习 理论 
提供 350 多 幅 高 质量 的 双色 图 表 ， 用 于 突出 各 种 概念 

收入 大 量 实用 的 例题 

采用 伪 代 码 形式 的 模式 识别 算法 

扩充 了 对 正文 有 关键 意义 的 习题 和 计算 机 练习 

用 算法 形式 讲解 特殊 的 模式 识别 和 机 器 学 习 技术 、 

每 章 后 面 附 有 文献 历史 评述 以 及 重要 的 参考 文献 

附录 补充 了 必要 的 数学 基础 知识 


”Richard O. Duda 于 麻 省 理工 学 院 获得 电气 工程 博士 学 位 ， 是 加 州 San Josey 
洁 | ， 立 大 学 电气 工程 系 名 淮 教 授 。 他 是 美国 人 工 智能 学 会 会 士 、IEEE 会 士 。 


Peter E. Hart 是 加 州 Ricoh lnnovations 公 司 的 创始 人 人 、 总 裁 和 CEO， 同 时 还 星 理 光 
公司 的 高 级 副 总 裁 ， 在 此 之 前 曾 任 理光 加 州 研究 中 心 的 高 级 副 总 裁 。 他 是 美国 人 工 智能 学 会 会 
士 、IEEE 会 士 ， 曾 获 IEEE 信 息 论 协会 50 周 年 论文 奖 。 


Duda G. Stork 于 马里 兰 大 学 获得 博士 学 位 ， 现 任 加 州 Ricoh lnnovations 公 司 的 首 
席 科 学 家 ， 同 时 也 是 斯 坦 福 大 学 电气 工程 与 计算 机 科学 客座 教授 。 
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本 书 的 第 1 版 * 模 式 分 类 与 场景 分 析 》 出 版 于 1973 年 ,是 模式 识别 和 场景 分 析 领 域 莫 基 性 
的 经 典 名 车。 在 第 2 版 中 ,除了 保留 了 第 1 版 的 关于 统计 模式 识别 和 结构 模式 识别 的 主要 内 容 
以 外 ,读者 将 会 发 现 新 增 了 许多 近 25 年 来 的 新 理论 和 新 方法 ,其 中 包括 神经 网 络 . 机 器 学 习 、 数 
PICHIA .不 变量 理论 . 隐 马 尔 可 夫 模 型 .统计 学 习 理 论 和 支持 向 量 机 等 。 作 者 还 为 未 
来 25 年 的 模式 识别 的 发 展 指明 了 方向 。 书 中 包含 许多 实例 ,名 种 不 同方 法 的 对 比 ,丰富 的 图 
表 , 以 及 大 量 的 课 后 习题 和 计算 机 练习 。 

本 书 作为 流行 和 经 典 的 教材 ,主要 面向 电子 工程 .计算 机 科学 .数学 和 统计 学 .媒体 处 理 、 模 
式 识 别 .计算 机 视觉 .人工 智 能 和 认 知 科学 等 领域 的 研究 生 和 高 年 级 本 科 生 ,也 可 作为 相关 领域 
科技 人 员 的 重要 参考 书 ， 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 吉 出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ,美国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭 儿 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 得 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积 淀 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ,引进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华 章 图 文 信息 有 限 公 司 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 入 选 、 移 译 国 外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 直 界 著名 出 版 公司 建立 了 
展 好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 疆 选 出 Tanenbaum Stroustrup, Kernighan, 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 度 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 囊 助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专 诚 为 其 书 的 中 译本 作 序 。 记 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 人 一 个 新 的 阶段 。 为 此 ， 华 章 公 司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原版 书库 ”; 同时 ， 引 进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines” 系 列 组 成 
“全 美 经 典 学 习 指导 系列 "。 为 了 保证 这 三 套 丛 书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公 司 聘请 了 中 国 科学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科 技 大 学 、 复 旦 大 学 、 上 
海 交通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 哈 尔 滨 工业 大 学 、 西 安 交 通 大 学 、 中 国 
人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮电 大 学 、 中 出 大 学 、 解 放 和 盏 理工 大 学 、 郑 州 大 学 、 潮 
北 工学 院 、 中 国 国家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 "， 为 我 们 提供 选 题 意见 和 出 版 监督 。 

这 三 套 从 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 








的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. LT., Stanford, U.C. Berkeley, C. M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 涵 盖 了 程序 设计 、 数 据 结 构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工程 、 图 形 学 、 通 信 与 网 络 、 离 散 数学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语 言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 衰 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采用 。 在 这 些 贺 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 稼 而 人 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公司 欢 迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


电子 邮件 : hzedu@hzbook.com 

联系 电话 ; (010 ) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 
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现代 计算 机 具有 强大 的 计算 和 信息 处 理 的 能 力 , 但 是 它 在 目标 识别 .环境 感知 及 在 复杂 条 
件 下 的 决策 能 力 远 远 不 如 生物 系统 。 目 前 ,已 有 很 多 学 科 分 别 从 不 同 角 度 、 以 不 同 途径 试图 研 
究 和 揭示 这 当中 的 奥秘 ,并 且 和 希望 用 计算 机 实现 一 个 具有 感知 .识别 .理解 、 自 学习 和 自 适 应 能 
力 的 灵活 和 智能 的 计算 机 器 。 这 些 学 科 包 括 模式 识别 .人工 智 能 .计算 机 视 党 、 机 嵌 学 习 、 心 理 
生物 学 和 认 知 科学 等 。 而 “模式 识别 ”, 因 其 明确 的 问题 定义 `. 严格 的 数学 基础 .坚实 的 理论 框 
架 和 广泛 的 应 用 价值 ,获得 越 来 越 多 的 重视 ,并 且 也 成 为 上 述 其 他 几 门 学 科 的 中 心 研 究 内 容 之 
一 。 在 过 去 的 几 十 年 里 ,模式 识别 的 研究 得 到 迅速 发 展 ,并 且 已 有 丰富 的 理论 成 果 。 其 实际 应 
用 领域 也 从 最 初 的 光学 字符 识别 (OCR), 扩 展 到 如 今 的 笔 输 入 计算 机 、 生 物 身 份 认 证 .DNA 
序列 分 析 .化 学 气味 识别 .药物 分 子 识 别 .图 像 理 解 . 人 脸 辩 识 .表情 识别 .手势 识别 .语音 识别 、 
说 话 人 识别 .信息 检索 .数据 挖掘 和 信和 号 处 理 等 领域 。 

不 过 尽管 如 此 , 相 比 生物 认 知 系统 , 现 有 人 工 模式 识别 系统 的 适应 和 识别 能 力 还 远 远 不 能 
令 人 满意 。 模 式 识别 的 许多 基础 理论 和 基本 方法 方面 的 问题 还 远 没有 得 到 解决 ,新 出 现 的 问 
题 也 层出不穷 。 鉴 于 此 ,研究 者 和 实践 者 都 很 需要 一 本 这 一 领域 高 水 平 的 学 术 著 作 , 其 中 包含 
现 有 基础 理论 方法 ,全 面 反映 学 科研 究 现状 ,以 至 预测 未 来 发 展 的 方向 。 

说 起 “模式 识别 学科 的 经 典 闭 作 , 即 使 刚刚 跨 和 人 该 领域 不 久 的 初学 者 都 会 提 到 R. O. 
Duda 和 P. E. Hart 合 著 的 《模式 分 类 与 场景 分 析 》(Pattern Classification and Scene Analy- 
sis,John Wiley & Sons,1973) 这 本 奠基 性 和 权威 性 的 名 著 。 它 在 国际 模式 识别 学 术 界 和 教育 
界 享有 崇高 声誉 和 具有 重大 影响 ,我国 的 很 多 模式 识别 和 计算 机 视觉 界 的 专家 学 者 对 这 本 蔷 
作 也 情 有 独 钟 。 在 20 世纪 80 年 代 初 期 ,国内 大 批 专 家 学 者 赴 美 进修 , 师 从 侍 泵 孙 (K. S. 
Fu) RCT. S，Huang) 等 国际 模式 识别 界 和 计算 机 视觉 界 的 先驱 和 大 师 。 当 时 很 多 人 研 
读 的 就 是 这 本 著作 。 这 其 中 也 包括 译 者 的 老师 路 浩 如 教 授 、 顾 伟 康 教授 和 徐 胜 荣 教授 等 。 回 
国 后 他 们 又 继续 选用 本 书 作 教 材 , 传 授 给 国内 的 学 生 和 科技 工作 者 。 时 至 今日 ,一 谈 及 本 书 ， 
他 们 仍 能 流露 出 由 囊 的 敬佩 和 感激 之 情 。 

在 20 世纪 70 年 代 初 期 ,关于 模式 识别 学 科 的 定义 尚未 明朗 ,但 这 本 出 版 于 1973 年 的 书 
却 内 容 全 面 .详实 ,观点 深刻 而 富有 生命 力 , 眼 光 独 到 而 长 远 ,许多 在 当时 作为 指引 方 回 的 新 概 
念 几 乎 预言 了 今天 很 多 算法 的 成 功 ,其 至 对 未 来 的 发 展 仍 有 参考 价值 。 想 想 1973 年 的 研究 水 
平和 计算 能 力 ,这 确实 难能可贵 。30 年 来 ,这 本 书 已 被 许 许 多 多 的 世界 著名 高 校 用 作 经 典 教 
科 书 。 根据 NEC 公司 文献 情报 引用 统计 数据 ,至 今 已 有 超过 两 千 篇 学 术 论 文 和 多 种 著作 3 引用 
过 该 书 , 其 中 包括 新 近 发 表 的 论文 。 

令 国 际 学 术 界 高 兴 的 是 ,这 本 书 的 第 2 版 于 2001 年 初 在 纽约 出 版 发 行 了 。 新 版 改名 为 
《模式 分 类 了》(CPattern Classi fication, 2nd Edition) ,作者 为 R. O. Duda,P. E. Hart, D. G. 
Stork。 在 第 1 版 发 行 25 年 之 后 重 写 的 第 2 版 ,不 仅 保 留 了 第 1 版 中 有 关 模 式 分 类 理论 的 所 
有 重要 和 经 典 的 内 容 , 而 且 增 加 了 很 多 时 新 的 而 且 被 实践 证 明 是 有 生命 力 的 新 理论 .新 方法 和 
新 实现 。Stork 博士 在 筛选 本 书 第 1 版 问世 后 25 年 间 的 新 成 果 的 基础 上 ,又 做 了 大 量 出 色 的 





Vl 


工作 ,归纳 和 总 结 了 “模式 识别 ”这 一 重要 与 迅速 成 长 中 的 学 科 的 发 展 规律 ,为 进一步 发 展 指明 
了 方向 。 第 2 版 刚刚 出 版 就 受到 普遍 欢迎 ,已 经 被 许多 高 校 用 作 教 材 ,其 中 包括 圣何塞 加 州 州 
立 大 学 .斯 坦 福 大 学 .加州 大 学 伯克利 分 校 等 著名 学 校 。2001 年 10 月 第 2 版 的 日 文 版 翻译 完 
成 并 开始 发 行 。2002 年 2 月 ,第 2 版 的 第 三 次 修订 版 本 已 经 开始 销售 。 著 名 学 者 ,纽约 州立 
大 学 布 法 罗 分 校 计算 机 系 $S. N. Srihari 教 授 评 价 道 ;第 2 版 作 了 (模式 识别 学 科 ) 里 程 碑 式 的 
成 就 总 结 。” 

与 第 1 版 相 比 ,本 书 第 2 版 把 重点 放 在 最 核心 的 “模式 分 类 ”理论 上 ,全 面 、 详 实 、 系 统 和 深 
入 地 介绍 相关 理论 实现 和 算法 。 特 别 是 ,本 书 在 介绍 各 种 方法 的 同时 ,又 根据 深层 的 理论 分 析 
和 作者 几 十 年 的 实践 经 验 总 结 , 对 不 同方 法 的 优 缺 点 和 适用 范围 作 了 对 比 。 此 外 ,第 2 版 在 内 
容 和 形式 上 作 了 以 下 几 方 面 的 改进 。 

。 增 加 了 许多 新 的 材料 。 除 了 保留 原 有 的 重要 经 典 内 容 以 外 , 书 中 包含 很 多 最 近 十 几 年 
才 发 展 起 来 的 并 被 实践 证 明 是 有 用 的 模式 识别 的 新 技术 ,比如 神经 网 络 、 随 机 方法 、 进 化 计算 
以 及 机 器 学 习 理 论 。 书 中 虽然 以 统计 技术 为 主 , 但 保留 了 句法 (结构 ) 模 式 识别 的 内 容 , 也 包含 
许多 “经 典 ” 的 技术 ,比如 隐 马 尔 可 夫 模 型 .模型 选择 机 制 和 组 合 分 类 器 等 。 

。 增加 许多 例题 . 课 后 习题 和 计算 机 练习 ,使 得 本 书 非 常 适合 用 作 高 年 级 本 科 生 、 研 究 生 
教材 。 

。 有 350 多 幅 高 质量 的 图 表 。 这 些 图 表 都 是 精心 计算 所 得 ,用 于 反映 正文 中 的 要 点 ,值得 
非常 仔细 地 研究 。 

。 算法 采用 伪 代 码 列 表 形 式 , 便 于 查找 和 使 用 。 

。 书 中 每 章 末尾 的 文献 和 历史 评述 很 有 特色 ,能 帮助 读者 有 重点 地 选择 阅读 参考 文献 ,并 
且 能 了 解 相关 主题 研究 的 历史 过 程 。 

© 书后 的 数学 附录 补充 了 必要 的 数学 基础 知识 。 

本 书 内 容 十 分 全 面 , 几 平 涵盖 目前 “模式 识别 ”所 有 重要 的 理论 和 方法 。 本 书 并 没有 陷 人 
“百科 全 书 ” 式 的 堆砌 材料 的 工作 ,由 于 作者 们 都 是 该 领域 的 权威 专家 ,在 介绍 各 种 理论 和 方法 
时 ,时 刻 不 忘 将 不 同 理论 ,方法 的 对 比 与 作者 自 号 的 研究 成 果 和 实践 经 验 传授 给 读者 ,使 读者 
不 至 于 对 如 此 丰富 的 理论 和 方法 无 所 适 从 。 另 外 ,特别 值得 指出 的 是 ,本 书 的 第 9 章 非常 有 特 
色 , 也 是 非常 重要 的 一 章 。 这 一 章 从 更 高 的 观点 和 更 深 的 层次 上 探讨 模式 识别 和 机 器 学 习 的 


”许多 理论 和 哲学 的 基础 ,引信 对 指导 理论 研究 和 实际 应 用 都 至 关 重 要 的 物理 学 中 普 适 的 “守恒 





律 " 和 “互补 律 ” 等 类 比 的 手段 。 从 某 种 意义 上 来 说 ,只 有 懂得 了 本 章 的 结论 , 才 可 能 透彻 地 理 
解 和 更 好 地 运用 其 他 章节 的 内 容 。 

2001 年 10 月 ,作者 D.G. Stork 博士 邀请 我 们 翻译 《模式 分 类 》 的 第 2 版。 实际 翻译 工作 
从 2002 年 初 开始 ,历时 4 个 月 完成 。 这 是 一 本 大 部 头 的 经 典 闭 作 ,原著 中 的 语言 精辟 .解说 透 
彻 , 而 翻译 时 间 有 限 ,承担 这 项 任务 , 译 者 既 感 到 荣幸 ,又 深 感 户 上 的 压力 。 我 们 不 得 不 广泛 收 
集资 料 ,紧密 结合 教学 实践 经 验 , 并 夜以继日 地 进行 翻译 。 但 不 管 怎样 努力 ,如 果 没 有 有 关 人 
士 的 大 力 协助 ,翻译 工作 难以 如 期 完成 。 为 此 ,我们 深 表 感谢 。 

特别 感谢 D. G. Stork 博士 邀请 我 们 翻译 此 书 , 并 与 Wiley 公司 联系 版 权 事宜 和 多 次 寄 
来 “勘误 表 ” 以 及 最 新 印刷 版 本 ;感谢 赵 平 女 士 , 在 翻译 和 编辑 出 版 本 书 中 给 子 的 大 力 文 持 和 协 
助 ;感谢 刘 自 强 ,他 在 微软 亚洲 研究 院 学 习 期 间 ,给 我 们 介绍 了 Stork 博士 与 该 书 第 2 版 ,并 且 
协助 翻译 了 第 10 章 ;感谢 程 敏 ,她 为 本 书 的 翻译 作 了 大 量 认真 细致 的 工作 。 感 谢 机 械 工 业 出 
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Wad HE Be ZS A] RKKA ib BA er RABAT) FT IF AS PK) PE AS RE A A Ss 
后 我 们 还 要 感谢 顾 伟 康 教授 (浙江 大 学 信 电 系 )、 叶 秀清 教授 (浙江 大 学 信和 电 系 ). 研 仁 杰 教授 
(浙江 大 学 信 电 系 ) .李娜 (浙江 大 学 CAD&CG 国家 重点 实验 室 ) 、 温 志 颖 (浙江 大 学 信和 电 系 )、 
Brendan Codey( Wiley Interscience) ,George Telecki(Wiley Interscience) , Duda 教授 (San Jo- 
se State University) , Hart 教授 (Ricoh Innovation, Inc. ) 等 给 予 的 热心 支持 和 帮助 。 另 外 ,本 
书 的 翻译 得 到 了 “国家 自然 科学 基金 项 目 ”(60105003) 的 资助 ,特此 感谢 。 

本 书 作为 流行 和 经 典 的 教材 和 专业 参考 书 , 主 要 面向 电子 工程 .计算 机 科学 、 数 学 和 统计 
学 .媒体 处 理 、 模 式 识别 .计算 机 视觉 人工 智能 和 认 知 科学 等 领域 的 研究 生 和 相关 领域 的 科技 
人 员 。 翻 译 出 版 中 译本 的 目的 ,就 是 希望 能 为 国内 广大 从 事 相关 研究 的 学 者 和 研究 生 提 供 一 
本 全 面 、 系 统 、 权 威 的 教科 书 和 参考 书 。 如 果 能 做 到 这 一 点 , 译 者 将 感到 十 分 欣慰 。 

本 书 第 2 章 一 第 5 章 和 附录 A 数学 基础 由 姚 天 翔 翻译 ;其 余 主要 由 李 宏 东 翻 译 ; 程 敏 、 刘 
目 强 等 协助 完成 部 分 翻译 工作 ;由 李 宏 东 、 姚 天 翔 整 理 全 稿 。 

在 翻译 过 程 中 ,我 们 力求 忠实 \ 准 确 地 把 握 原著 ,同时 保留 原著 的 风格 。 但 由 于 译 者 水 平 
有 限 , 男 外 翻译 时 间 仓 促 , 书 中 难免 有 错误 和 不 准确 之 处 , 奶 请 广大 读者 批评 指正 。 


李 宏 东 (Hongdong Li) 
Hk KAA CTianxiang Yao) 
2002 年 4 月 

于 浙江 大 学 信 电 系 
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本 书 第 1 版 《模式 分 类 与 场景 分 析 》( Pattern Classification and Scene Analysis) F 1973 
年 问世 ,在 逾越 四 分 之 一 世纪 以 后 的 今天 我 们 重 写 了 第 2 版 。 写 作 的 初衷 依然 不 变 , 即 尽 可 能 
地 对 模式 识别 中 的 各 个 重要 课题 ,尤其 是 对 基本 原理 进行 系统 地 介绍 。 我 们 相信 这 会 为 相当 
多 有 待 解决 的 专门 问题 ,诸如 语音 识别 、 光 学 字符 识别 或 信号 分 类 等 ,提供 必需 的 基础 。 本 书 
第 1 版 的 许多 读者 经 常 问 我 们 为 什么 要 把 “模式 分 类 ”与 “场景 分 析 ” 结 合 在 一 本 书 里 写 。 在 当 
时 ,我 们 所 能 做 的 回答 是 ,分 类 理论 的 确 是 模式 识别 学 科 中 最 重要 的 与 领域 无 关 的 
(domain-independent) 理 论 , 而 场景 分 析 是 那个 年 代 仅 有 的 并 且 重 要 的 应 用 领域 。 况 有 昌 , 根 据 
1973 年 的 研究 水 平 , 完 全 有 可 能 把 两 个 内 容 集中 在 一 本 书 中 阐述 清楚 而 不 显 肤浅 。 在 随后 的 
这 些 年 中 ,模式 识别 的 理论 和 应 用 领域 已 经 迅速 扩展 ,使 得 上 述 观点 再 也 站 不 住 脚 。 因 为 必须 
要 做 出 选择 ,所 以 我 们 决定 在 本 版 中 只 介绍 分 类 理论 ,而 把 有 关 应 用 的 课题 留 给 其 他 专门 书籍 
来 解决 。 自 1973 年 以 来 ,对 第 1 版 中 提出 的 许多 问题 开展 了 大 量 的 研究 ,并 且 取 得 了 长 足 的 
进步 。 仅 仪 是 计算 机 硬件 的 发 展 已 经 大 大 超过 了 学 习 算法 和 模式 识别 的 步伐 。 第 1 版 中 提出 
的 一 些 突出 问题 目前 已 获 圆 满 解决 ,然而 另外 一 些 却 依然 让 人 灰心 。 模 式 识 别 系统 所 显现 的 
重大 作用 ,使 该 领域 的 研究 方兴未艾 ,并 且 激 动人 心 。 

当 我 们 在 撰写 本 书 第 1 版 时 ,模式 识别 还 只 是 相当 专门 的 学 科 。 但 从 其 目前 丰富 的 应 用 
领域 来 看 , 它 已 变 得 十 分 博大 。 这 些 应 用 包括 :笔迹 和 手势 的 识别 、 展 语 技术 、 地 学 分 析 、 文 件 
检索 以 及 气泡 室 中 的 亚 原子 轨迹 判读 。 它 为 大 量 人 -机 界面 问题 提供 核心 算法 ,比如 笔 输 入 计 
算 。 第 2 版 的 篇 幅 正 说 明了 其 现 有 理论 的 广博 。 虽 然 我 们 预计 本 书 的 绝 大 多 数 读者 都 对 开发 
新 的 模式 识别 系统 感 兴趣 ,但 也 不 排除 有 少 部 分 人 专注 于 深刻 理解 现 有 的 模式 识别 系统 。 这 
当中 最 显著 的 莫 过 于 人 类 和 动物 的 神经 认 知 系统 。 虽 然 研究 模式 识别 的 生物 学 起 源 已 明显 超 
出 本 书 的 范围 ,但 是 ,由 于 对 自然 界 中 的 模式 识别 能 力 感 兴趣 的 神经 生物 学 家 和 心理 学 家 也 越 
来 越 多 地 依赖 于 先进 的 数学 和 理论 的 帮助 ,从 而 也 必 将 从 本 书 中 获 益 。 

尽管 已 有 很 多 优秀 的 书籍 集中 讨论 某 一 部 分 技术 ,我 们 仍然 强烈 地 感到 需要 像 本 书 这 样 
采取 某 种 不 同 的 讨论 方法 。 也 就 是 说 ,本 书 并 非 集中 在 某 些 专 门 技术 如 神经 网 络 上 ,相反 ,我 
们 对 一 类 特定 的 问题 一 一 模式 识别 问题 一 一 开展 研究 。 本 书 讨 论 了 多 种 可 行 的 技术 。 学 生 们 
和 实践 者 常常 需要 知道 某 种 技术 是 否 适 合 于 他 们 的 特定 需求 或 者 开发 目标 ,许多 专门 研究 神 
经 网 络 的 书籍 未 必 会 讨论 其 他 的 技术 (诸如 判定 树 、 最 近邻 方法 或 者 其 他 分 类 器 ) 以 提供 比较 
和 选择 不 同方 案 的 依据 。 为 了 避免 出 现 这 种 问题 ,我们 将 在 本 书 中 对 比 讨论 各 种 分 类 技术 ,并 
讨论 各 自 的 优势 和 缺点 。 

所 有 这 些 发 展 要 求 改写 本 书 的 第 1 版 ,以 获得 一 个 统一 的 更 新 的 版 本 。 我 们 不 仅 丰 富 了 
本 书 的 内 容 , 并 且 在 以 下 几 方 面 作 了 改进 。 

新 的 材料 书 中 包含 有 很 多 最 近 十 几 年 才 发 展 起 来 并 被 实践 证 明 是 有 用 的 模式 识别 的 新 
技术 ,比如 神经 网 络 .随机 方法 以 及 有 关机 器 学 习 理 论 的 问题 ,等 等 。 虽 然 本 书 仍然 以 统计 技 
术 为 主 ,但 是 为 了 保持 完整 性 ,我 们 也 加 进 了 句法 (结构 ) 模 式 识别 的 内 容 , 还 包含 许多 “经 典 ” 








的 技术 ,如 隐 马 尔 可 夫 模 型 (HMM) ,模型 选择 机 制 .组 合 分 类 器 等 。 

丰富 的 例题 ”本 书 中 包含 有 许多 例题 ,这 些 例题 通常 使 用 很 简单 的 数据 ,避免 元 长 单调 的 
计算 ,但 是 又 足够 复杂 ,使 得 能 够 清楚 地 解释 关键 知识 点 。 例 题 的 作用 在 于 增加 直观 认识 , 帮 
助 学 生 解决 课 后 习题 。 | 

算法 列表 “” 藉 助 算法 可 以 最 清楚 地 解释 所 讲述 的 模式 识别 技术 。 本 书 中 ,我们 提供 了 很 
多 算法 。 算 法 只 是 相应 的 完整 计算 机 程序 的 一 个 基本 骨架 。 我 们 假定 每 位 读者 都 熟悉 算法 中 
采用 的 伪 码 形式 ,或 者 可 以 通过 上 下 文 来 理解 。 

加 星 号 的 节 有些 节 加 了 星 号 ,表明 有 些 专门 化 ,通常 是 一 些 补充 材料 。 但 它们 一 般 不 影 
响 对 后 续 不 带 星 号 的 节 的 理解 ,所 以 在 初次 阅读 时 可 以 跳 过 。 

上 机 练习 这些 练习 并 不 限制 采用 哪 种 计算 机 语言 或 系统 ,学 生 可 以 根据 情况 选择 适合 
自己 的 语言 或 系统 。 

课 后 习题 ”增加 了 一 些 课 后 的 习题 ,并 按 提出 问题 的 章节 组 织 。 本 书 的 习题 男 有 管 案 手 
册 , 可 供 教师 选用 。 

每 章 小 结 ”每 章 小 结 中 含有 本 章 重要 的 概念 和 知识 点 。 

增强 的 图 表 为 了 更 好 地 展示 概念 ,我 们 花 了 很 大 的 力气 来 增强 本 书 中 的 图 表 , 以 解释 正文 
中 的 要 点 。 部 分 图 表 的 建立 ,经 过 了 大 量 精 心 的 计算 和 细致 的 参数 设置 。 相 关 的 Adobe Acrobat 
格式 的 文件 可 以 登录 ftp://ftp. wiley. com/public/sci _ tech med/pattern/ 或 http://www. 
wiley. com/ products/ subject/engineering/electrical/ software _ supplem _ elec eng. html 获得 。 

数学 附录 学 生 们 未 必 拥 有 所 必需 的 同样 的 数学 基础 ,这 一 点 也 不 令 人 奇怪 。 为 此 ,在 书 
后 附录 中 补充 了 必要 的 数学 基础 知识 。 我 们 力求 通 篇 使 用 清晰 的 表示 法 来 解释 关键 特性 , 同 
时 又 保持 可 读 性 。 附 录 中 的 符号 列表 能 够 帮助 那些 愿意 仔细 钻研 预先 使 用 符号 的 章节 的 读 
者 。 

本 书包 含 足以 适合 两 学 期 的 高 年 级 本 科 或 研究 生 课程 的 材料 , 当然 通过 仔细 挑选 也 可 变 
成 一 学 期 的 课程 。 一 学 期 课程 应 当 包括 第 1 章 到 第 6 章 ,第 9 章 和 第 10 章 (大 部 分 来 自 第 1 
版 的 内 容 , 仅 仅 增 加 了 神经 网 络 和 机 器 学 习 ), 加 星 号 的 各 节 可 讲 可 不 讲 。 

由 于 研究 和 发 展 速度 如 此 之 快 , 书 中 每 章 末尾 的 文献 和 历史 评述 就 显得 十 分 有 必要 ,尽管 
有 些 简略 。 我 们 的 目的 无 非 是 想 帮助 读者 有 重点 地 选择 阅读 参考 文献 ,而 并 非 是 记录 整个 历 
史 发 展 过 程 和 感谢 .赞美 或 表扬 某 些 研究 者 。 参 考 书目 中 有 的 重要 文献 可 能 未 必 在 正文 中 提 
及 ,读者 可 根据 标题 自行 选 阅 。 

如 果 没 有 以 下 几 个 研究 机 构 的 帮助 ,我 们 是 不 可 能 完成 本 书 的 。 第 一 个 最 重要 的 一 个 当 
属 理光 发 明 公 司 (Ricoh Innovations, DGS & PEH)。 在 动 蓝 和 严酷 的 工业 竞争 环境 中 ,以 及 
对 产品 和 创新 的 无 休止 的 需求 压力 之 下 ,该 公司 能 够 支持 像 本 书 这 样 长 期 和 广泛 的 教育 研究 
项 目 , 反 映 出 这 里 有 了 不 起 的 环境 和 和 氛围 ,以 及 少 有 的 和 明知 的 领导 集体 。 感 谢 理 光 有 限 公 司 
研究 发 展 部 主任 Morio Onoe 在 我 们 开始 写作 时 给 予 的 热情 支持 。 同 样 要 感谢 圣何塞 加 州 州 
立 大 学 ,斯 坦 福 大 学 电气 工程 系 、 统 计 学 和 心理 学 系 , 加 州 大 学 伯克利 分 校 , 国 际 高 等 科学 研究 
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我 们 能 够 如 此 轻而易举 地 辨识 人 脸 .识别 语音 阅读 手写 文字 、 从 口袋 里 摸 出 钥匙 MAR 
据 气 味 判 断 人 苹果 是 否 成 熟 , 这 大 大 掩盖 了 隐藏 在 这 些 貌 似 简单 的 识别 行为 背后 的 非常 复杂 
处 理 机 制 。 模 式 识别 (pattern recognition) 一 一 这 种 输入 原始 数据 并 根据 其 类 别 采 取 相 应 行 
为 的 能 力 一 一 对 于 我 们 的 生存 至 关 重 要 。 为 了 具有 这 种 能 力 ,在 过 去 的 几 千 万 年 里 ,我 们 进化 
出 高 度 复杂 的 神经 和 认 知 系统 。 


1.1 ALAR R A 


试图 设计 和 建造 一 台 能 够 识别 不 同 模式 的 机 器 的 想法 是 很 自然 的 。 从 自动 语音 识别 到 指 
纹 识别 、 光 学 字符 识别 .DNA 序列 分 析 等 等 很 多 的 应 用 ,都 清楚 地 表明 一 个 可 靠 和 准确 的 模式 
识别 机 瞻 的 巨大 作用 。 而 且 , 在 解决 这 许 许多 多 问题 的 同时 ,我 们 对 上 自然界 存在 的 精巧 的 模式 
识别 系统 ,例如 人 的 认 知 系统 ,有 了 更 深刻 的 理解 和 由 衷 的 赞叹 。 对 其 中 一 些 问题 ,比如 语音 
和 视觉 的 辨识 ,我 们 对 大 自然 的 解决 方案 的 认识 程度 也 必然 影响 了 我 们 目 己 的 设计 方案 ,包括 
所 采用 的 算法 和 所 设计 的 专用 硬件 。 


1.2 一 个 例子 


为 了 显示 有 关 问 题 的 复 林 情况 ,考虑 如 下 这 个 虚构 或 想像 中 的 例子 。 设 想 有 一 个 鱼 类 加 
工厂 ,希望 能 将 传送 带 上 的 鱼 的 品种 的 分 类 过 程 自动 进行 。 首 期 一 个 课题 就 是 要 通过 光学 感 
知 手 段 , 染 设 一 个 摄像 机 ,拍摄 略 干 样品 的 图 像 , 来 区 分 狂 鱼 (salmon) 和 鲈鱼 (sea bass)。 注 意 
到 这 两 种 鱼 确 实 存在 一 些 物理 特性 上 的 差异 比如 长 度 .光泽 宽度、. 鱼 的 数目 和 形状 、 嘴 的 
位 置 。 我 们 就 利用 这 些 要 素 作 为 模式 分 类 的 特征 (feature)。 还 注意 到 图 像 本 身 也 存在 差异 ， 
比如 光照 的 不 同 , 鱼 在 传送 带 上 的 位 置 ,以 及 由 摄像 机 电子 线路 引起 的 干扰 。 

如 果 估 鱼 与 鲈鱼 两 个 类 别 确实 存在 某 种 差异 ,我 们 称 之 为 共有 不 辣 的 模型 (model) 即 可 以 
用 数学 形式 表达 的 不 同 特征 的 描述 。 模 式 分 类 的 最 终 目 的 和 处 理 方 法 就 是 ,首先 将 模型 分 成 几 类 ， 
然后 对 感知 到 的 数据 进行 处 理 , 以 滤 除 干扰 (由 采样 引起 而 非 由 模型 引起 )。 然 后 ,选择 出 与 感知 数 
据 最 接近 的 模型 类 别 。 任 何 模 式 识别 系统 不 管 其 设计 目标 如 何 ,必须 首先 建立 上 述 概 念 。 

设计 执行 鱼 类 分 类 任务 的 原型 分 类 系统 ,最 好 具有 如 图 1-1 示 出 的 形式 。 首 先 摄像 机 拍 
摄 鱼 的 照片 。 然 后 ,图 像 信号 被 预 处 理 ,以 方便 后 续 的 其 他 操作 ,同时 又 不 损失 关键 信息 。 特 
别 的 ,我 们 应 该 用 分 割 技术 来 将 不 同 的 鱼 分 离开 来 ,或 者 将 鱼 同 背 景 分 开 。 最 后 ,将 每 条 鱼 的 
数据 送 入 特征 提取 器 ,其 作用 是 通过 测量 特定 的 “特征 ”或 “属性 ”来 简化 原始 数据 。 

预 处 理 器 必须 能 自动 调整 平均 光照 度 ,或 者 进行 效 值 化 处 理 , 以 去 除 传送 带 等 背景 成 分 。 
我 们 先 暂 时 不 管 鱼 的 图 像 如 何 被 分 割 以 及 特征 提取 器 和 模式 分 类 器 如 何 设计 的 问题 ,而 想像 
一 下 :假设 有 人 告诉 我 们 “鲈鱼 一 般 要 比 甸 鱼 长 ”。 于 是 ,这 就 提供 了 一 种 可 尝试 的 模型 :“ 钙 色 
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ARPA K E, E a e A E Ph E K E, M H SF E A K E E EEK”. Al, 
“长 度 ” 就 是 一 个 明显 的 可 用 于 分 类 的 特征 。 我 们 可 以 仅仅 通过 看 一 条 鱼 的 长 度 ! 是 否 超过 某 
个 临界 值 1* 来 判别 鱼 的 种 类 。 为 确定 恰当 的 1* , 必 须 先 获得 不 同类 别 的 鱼 的 奋 干 样本 ( 称 为 
“设计 样本 ”或 “训练 样本 ”) ,进行 长 度 测量 并 检查 结果 。 
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图 1-1 首先 对 要 进行 分 类 的 物体 利用 传感器 (如 摄像 机 ) 采 样 , 并 且 进 行 预 处 理 (preprocessing ) 。 
然后 是 特征 提取 (feature extraction) 和 分 类 判别 (classification) ,最 后 输出 类 别 结 果 。 这 里 的 结果 
fe “tt RG” ,尽管 信息 通常 是 从 采样 源 到 分 类 器 自前 而 后 流动 ,但 也 有 一 些 系 统 允 许 用 试 
探 性 方法 ,依据 后 面 阶段 的 结果 ,反馈 影响 前 面 的 处 理 ( 图 中 的 灰 箭头 )。 还 有 一 些 系统 会 将 若干 
阶段 的 处 理 合并 ,例如 同时 执行 分 割 和 特征 提取 。 这 些 特征 (更 确切 的 说 ,是 特征 的 值 ) 接 着 被 送 
入 分 类 器 ,用 于 各 类 别 置信 和 度 的 评估 ,输出 最 终 的 类 别 决策 


假设 我 们 已 经 完成 上 述 工作 ,并 将 长 度 的 直方 图 绘 于 图 1-2。 此 图 验证 了 在 平均 意义 上 ， 
鲈鱼 比 鲈鱼 要 长 的 结论 。 不 过 ,这 个 直方 图 也 清晰 并 且 令 人 失望 的 表明 :单一 的 特征 判 据 是 不 
足以 完美 分 类 的 。 也 就 是 说 ,无 论 怎样 确定 临界 值 1” ,都 无 法 仅 凭 长度 就 把 两 种 鱼 截 然 分 开 。 

虽然 遇 到 困难 但 并 未 就 此 灰心 ,我 们 继续 尝试 使 用 其 他 特征 ,比如 鱼 的 平均 光泽 度 (light- 
ness)。 我 们 小 心 的 消除 外 界 照 明光 亮度 的 差异 ,因为 这 会 影响 模型 本 喘 , 并 降低 分 类 器 的 性 能 。 
最 终 获 得 的 光泽 度 直 方 图 示 于 图 1-3。 这 个 结果 比较 令 人 满意 ,因为 两 种 鱼 的 分 离 性 更 好 。 

到 目前 为 止 , 在 具体 处 理 上 我 们 都 假定 无 论 哪 一 种 分 类 判决 都 是 等 代价 的 。 即 不 管 将 多 鱼 
误 判 为 鲈鱼 ,或 者 正好 相反 的 判决 ,所 引起 的 代价 都 相等 。 这 种 对 称 的 代价 在 通 音 情况 下 是 可 行 
的 ,但 也 不 尽 然 。 举 个 例子 来 说 ,对 某 个 鱼 类 加 工厂 ,顾客 或 者 能 接受 标示 着 “鲈鱼 BH SK H 
尔 混 人 了 链 鱼 , 却 无 法 人 恳 受 鲈鱼 出 现在 所 谓 的 “能 鱼 " 锥 头 中 。 为 了 能 在 经 营 中 站 住 脚 ,我 们 必须 
调整 分 类 决策 ,以 免 引 起 顾客 们 反感 ,甚至 不 惜 在 鲈鱼 饶 头 中 混 人 更 多 的 甸 鱼 。 在 这 种 情况 下 ， 
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应 当 把 判别 边界 向 光泽 度 更 小 的 值 移动 ,以 减少 将 钙 鱼 误 判 作 链 鱼 的 数目 (图 1-3), 如 有 果 顾 客 越 
反对 在 外 鱼 中 混入 钙 鱼 ( 即 , 这 种 类 型 的 分 类 错误 代价 越 高 ) ,我 们 就 越 应 减少 zx* 的 值 。 
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如 果 只 利用 长 度 这 一 14 

个 特征 ,出 现 分 类 错误 12 

是 不 可 避免 的 。 图 中 10 
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图 1-3 两 种 鱼 的 光泽 度 数值 
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最 小 ( 译 者 注 :而 且 比 图 12 > | 
的 最 小 误差 率 也 要 小 ) ! 
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上 述 考 虑 导致 了 我 们 期 望 有 一 个 分 类 的 “总 体 人 代价" 函数 。 我 们 真正 的 任务 是 要 确定 一 种 
RR (decision) ,使 该 代价 函数 最 小 。 这 是 决策 理论 的 中 心 任务 ,而 模式 分 类 可 能 是 其 中 最 重 
要 的 一 个 子 领域 。 

即使 我 们 已 经 有 了 一 个 总 体 代价 ,并 且 据 此 获得 了 最 优 的 决策 点 zx" ,其 分 类 性 能 也 许 仍然 
不 能 令 人 满意 。 这 时 ,我们 第 一 个 想到 的 是 寻找 其 他 的 更 利于 分 类 的 特征 。 不 过 让 我 们 首先 假 
设 :已 经 没有 比 光泽 度 更 好 的 图 像 特征 了 。 于 是 我 们 转 而 去 求助 于 组 合 运用 多 种 特征 的 方法 。 

值得 强调 的 是 ,在 寻求 其 他 特征 的 努力 中 ,我 们 发 现 鲈鱼 通常 比 钙 鱼 要 更 宽 。 这 样 就 有 了 
两 个 特征 一 一 光泽 度 zx 和 宽度 zs 。 暂 时 先 不 考虑 如 何在 实践 中 测量 这 些 特征 ,总 之 特征 提取 


器 已 经 把 整 条 鱼 的 数据 精简 为 一 个 二 维特 征 向 量 ,或 二 维特 征 空间 中 的 一 个 点 :x 一 | |. 
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现在 ,我 们 的 间 题 是 把 特征 空间 分 成 两 个 区域, 使 得 落 在 其 中 一 个 区 域 的 数据 点 ( 鱼 ) 被 分 
类 为 鲈鱼 ,而 落 在 另 一 个 区 域 的 数据 点 被 分 类 为 能 鱼 。 假 定 已 经 对 样本 特征 问 量 作 了 测量 ,并 
绘制 了 散布 图 (如 图 1-4)。 这 个 图 显示 出 可 以 根据 如 下 的 准则 来 区 分 两 种 鱼 : 如 果 特 征 向 量 
落 在 判别 边界 (decision boundary MEA WEA AU -E HH. 

看 起 来 这 条 规则 在 这 个 例子 中 运用 得 很 好 ,这 也 提示 我 们 或 许 有 必要 磐 人 更 多 的 特征 (以 
使 得 它 的 分 类 性 能 更 好 ) 。 除 光泽 和 宽度 以 外 ,我 们 也 许 想 到 更 多 的 形状 参数 ,比如 背鳍 的 顶 
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角 、 眼 睛 的 位 置 ( 用 鱼 嘴 到 鱼 尾 的 长 度 比例 表示 ) 等 等 。 然 而 ,怎样 才能 事先 知道 其 中 哪个 特征 
对 分 类 性 能 最 重要 呢 ? 因为 其 中 某 些 特征 很 可 能 是 元 余 的 。 比 如 ,如 果 鱼 眼睛 的 颜色 与 宽度 
完全 相关 ,那么 分 类 器 的 性 能 将 不 因 增 加 了 鱼 眼 颜 色 这 一 特征 而 有 任何 改善 。 即 便 不 考虑 获 
得 更 多 特征 时 所 需 的 额外 的 计算 量 ,我 们 是 否 真 的 有 必要 采用 非常 多 的 特性 呢 ? 这 样 作 是 否 
会 给 将 来 在 非常 高 维 的 空间 中 进行 分 类 操作 埋 下 了 “祸根 ”? 
图 1-4 ”两 种 鱼 的 光泽 度 特征 和 宽 
度 特征 的 散布 图 。 中 间 的 斜 线 是 
分 类 判决 的 分 界线 。 很 明显 ,这 里 
的 总 体 分 类 错误 比 图 1-3 的 最 小 误 
差 率 要 小 ,但 是 仍然 存在 一 些 错误 





再 假设 ,在 上 述 任务 中 ,其 他 的 特征 要 么 太 难 以 测量 ,要 么 对 分 类 器 豪 无 用 处 (甚至 起 反 作 
AD. XH ,我 们 将 只 有 两 个 特征 好 用 。 如 果 分 类 的 判决 模型 非常 复杂 ,分 界面 也 十 分 复杂 (而 不 
HRE 1-4 那样 是 一 简单 分 界 直线 ), 所 有 的 训练 样本 可 以 被 完美 的 正确 的 分 类 (如 图 1-5 所 示 )， 
虽然 如 此 ,这 样 一 个 结果 也 依然 不 令 人 满意 。 这 是 因为 设计 分 类 器 的 中 心目 标 是 能 够 对 新 样本 
(比如 以 前 从 未 见 过 的 某 条 鱼 ) 做 出 正确 的 反应 。 这 就 是 “推广 能 力 ”(generalization) 的 概念 。 图 
1-5 那 种 复杂 的 判决 边界 过 分 “调谐 ”(tune) 到 某 些 特定 的 训练 样本 上 了 ,而 不 是 类 别 的 共同 特 
征 ,或 者 说 是 竺 分 类 的 全 部 鲈鱼 (或 者 钾 鱼 ) 的 总 体 模 型 。 

图 1-5 ”过 分 复杂 的 模型 将 导致 复杂 的 宽度 

判决 曲线 。 虽 然 这 种 判决 曲线 对 训练 

样本 可 以 得 到 完美 的 分 类 效果 , 但 是 对 

将 来 的 新 模式 推广 能 力 很 差 。 例如 ,图 

中 标记 ‘?’ 的 新 模式 应 该 更 像 是 镍 鱼 , 然 

而 却 被 分 类 为 鲈鱼 


TOPE E 





自然 地 ,我们 想 采 集 更 多 的 训练 样本 ,以 获得 特征 向 量 的 更 好 估计 。 例 如 ,可 以 使 用 类 别 
样本 的 概率 分 布 。 可 是 ,在 某 些 模式 识别 问题 中 ,能 够 比较 容易 获得 的 样本 数据 毕竟 十 分 有 
限 。 即 使 在 连续 的 特征 空间 中 已 经 有 大 量 的 样本 点 ,可 是 如 果 按 照 图 1-5 的 思路 ,分 类 器 将 给 
出 极度 复杂 的 判决 边界 ,而且 将 不 太 可 能 很 好 的 处 理 全 新 的 样本 模式 。 

所 以 ,我们 宁可 去 寻求 某 种 “简化 ”分 类 器 的 方案 。 其 背后 的 信念 是 ,分 类 器 所 需 的 模型 或 判别 
边界 将 不 需要 像 图 1-5 那样 复杂 。 事 实 上 ,如 果 已 经 能 够 更 好 的 分 类 新 的 测试 样本 ,那么 即使 它 对 
训练 样本 集 的 分 类 性 能 不 够 好 ,也 应 该 接受 它 。 但 是 ,假如 在 设计 “复杂 ”的 分 类 器 时 其 推广 能 力 可 
能 不 是 很 好 ,那么 ,我 们 又 将 如 何 精确 和 定量 的 设计 相对 “简单 ”一 些 的 分 类 器 呢 ? 系 统 怎样 才能 自 
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动 得 出 图 1-6 所 示 的 那 种 相对 简单 的 分 界 曲 线 ,以 使 得 其 性 能 比 图 1-4 的 直线 分 界面 ,或 者 图 1-5 复 
杂 分 界 曲线 更 为 优越 ? 假设 我 们 能 够 做 到 “推广 能 力 ” 和 “复杂 度 ” 的 折 中 ,又 将 如 何 预 测 系统 对 新 模 
式 的 推广 能 力 如 何 呢 ? 这 些 都 是 统计 模式 识别 要 研究 的 中 心 问题 。 
图 1-6 ”图 中 标示 出 的 判决 曲线 是 
对 训练 样本 的 分 类 性 能 和 分 界面 
复杂 度 的 一 个 最 优 折 中 。 因 而 对 
将 来 的 新 模式 的 分 类 性 能 也 很 好 
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对 相同 的 输入 模式 ,我 们 或 许 需 要 完成 截然 不 同 的 任务 或 者 使 用 完全 不 同 的 代价 函数 ,这 
将 导致 很 不 同 的 结果 。 例 如 ,假如 我 们 的 目的 是 销售 鱼子 ( 痪 ) 的 话 ,我 们 很 可 能 试图 按 鱼 的 性 
别 进行 分 类 ,把 雄 的 和 上 肉 的 分 开 。 或 者 ,我 们 想 把 受 损 的 鱼 第 选 出 (以 制备 猫 食 ) 等 等 。 不同 的 
判决 任务 将 需要 不 同 的 特征 ,其 判别 边界 也 与 最 先 的 鱼 分 类 问题 很 不 相同 。 

因此 从 根本 上 说 ,分 类 判决 任务 必然 是 面向 特定 任务 或 特定 代价 的 。 因 而 建造 一 个 通用 
的 ,能 够 精确 的 执行 各 种 各 样 的 分 类 任务 的 人 工 模 式 分 类 机 器 将 是 一 个 极端 困难 的 任务 。 这 
使 得 我 们 对 人 类 能 在 各 种 模式 分 类 任务 间 迅 速 和 灵活 的 切换 更 增加 了 几 分 赞美 和 敬佩 之 心 。 

从 根本 上 而 言 ,分 类 的 目的 在 于 重建 产生 我 们 所 感知 到 的 模式 的 内 在 模型 。 不 同 的 分 类 
技术 ,很 大 的 依赖 于 候选 模型 自身 。 在 设计 模式 识别 系统 中 ,我 们 关注 的 是 模式 的 统计 特性 
(一 般 用 概率 的 观点 来 表达 ) ,这 贯穿 本 书 的 绝 大 多 数 内 容 。 在 这 里 ,模式 的 模型 可 能 是 某 一 特 
定 的 特征 集合 ,虽然 其 中 某 些 预先 知道 的 模式 已 被 某 种 类 型 的 随机 噪声 污染 。 偶 尔 有 人 认为 
“神经 模式 识别 ”( 或 “神经 网 络 模式 分 类 ”) 应 该 确立 自己 的 学 科 , 因 为 他 们 的 确 具 有 自己 特定 
的 学 术 起 源 , 但 我 们 认为 “神经 网 络 ” 至 少 应 算 作 是 “统计 模式 识别 ”(statistical pattern 
recognition) 的 一 个 近亲 分 支 ,其 中 原因 在 本 书 中 很 快 就 能 明了 。 如 果 模 型 是 由 若干 逻辑 规则 
集 组 成 ,那么 就 可 以 应 用 句法 模式 识别 “syntactic pattern recognition) 技 术 。 其 中 采用 规则 
或 文法 来 表达 模式 类 别 和 判别 条 件 。 例 如 ,我们 可 能 想 把 英文 句子 分 类 为 符合 语法 的 ,或 者 反 
之 。 在 这 里 ,适宜 采用 的 是 文法 规则 ,而 非 词 频 统计 或 词语 相关 性 等 统计 特性 。 

在 鱼 分 类 的 例子 中 ,仔细 选择 特征 是 十 分 必要 的 。 藉 此 , 方 能 获得 一 个 合理 的 有 利于 分 类 
器 成 功 实现 的 模式 表达 方式 如 图 1-6。 获 得 一 个 好 的 模式 表达 ,是 几乎 所 有 的 模式 识别 系统 的 
一 个 中 心 任务 。 这 不 仅 能 清楚 且 自 然 的 揭示 组 成 模式 的 各 部 件 之 则 的 结构 关系 ,还 能 有 效 的 
表达 出 未 知 模式 的 相应 模型 。 在 一 些 情况 下 ,模式 常 被 表达 为 实数 疝 量 的 形式 ,而 男 外 的 情 
况 , 可 能 以 有 序 的 属性 列表 方式 来 表达 。 也 可 能 是 子 部 件 及 其 关系 的 描述 等 等 。 我 们 试图 寻 
找 这 样 的 表达 ,使 能 够 导致 同样 行为 的 模式 样本 之 间 的 距离 尽 可 能 接近 ,而 使 将 要 导致 不 同行 
为 的 模式 样本 之 间 的 距离 尽 可 能 远离 。 如 何 构造 或 学 习 一 个 恰当 的 表达 ,以 及 如 何 定量 刻画 
“接近 ”或 “远离 "的 能 力 将 决定 一 个 分 类 需 的 成 败 。 我 们 十 分 倾向 于 运用 比较 少 的 特征 ,因为 
这 会 导致 (a) 更 简单 的 分 类 区 域 ,(b) 更 易 训 练 的 分 类 器 。 我 们 也 倾向 于 选择 更 鲁 棱 的 特征 , 即 
对 噪声 或 其 他 干扰 均 不 敏感 。 在 实际 应 用 中 ,我 们 希望 分 类 器 应 该 快速 响应 ,只 需 很 少 的 电子 
部 件 ,内存 容量 或 处 理 步骤 。 
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当 训练 样本 不 足 时 ,一 个 核心 的 技术 思路 是 垦 入 特定 问题 领域 的 背景 知识 。 确 实 , 训 练 样 
本 数 越 少 ,背景 知识 起 的 作用 就 越 大 ,例如 ,那些 表明 测试 模式 是 怎样 被 产生 出 来 的 知识 。 上 
述 思路 的 一 种 极端 情况 是 所 谓 的 “基于 综合 的 分 析 技 术 ”(analysis by synthesis) 。 该 技术 假定 
事先 已 经 知道 产生 各 个 模式 的 理想 模型 。 考 虑 语音 识别 的 情况 , 当 不 同人 发 “dee” 这 个 首 时 ， 
不 同 的 人 会 明显 存在 发 声 差异 ,但 是 其 中 有 一 点 却 是 共同 的 , 即 都 要 进行 张嘴 .逐步 降低 下 里 、 
舌尖 顶 在 上 颌 ,并 保持 一 会 儿 等 动作 。 我 们 可 假定 所 有 的 发 声 差 异 均 源 自 各 种 偶然 事件 ,比如 
讲话 者 是 男 的 或 者 女 的 、 老 的 或 者 少 的 ,以 及 带 有 的 不 同音 高 ,等 等 。 在 更 深 的 层面 上 讲 , 用 上 
面 的 “物理 学 ”或 “生理 学 ”模型 (或 所 谓 的 “运动 模型 ”) 对 表达 诸如 “dee”“doo” 或 其 他 发 音 过 
程 是 恰当 的 。 如 果 我 们 能 从 某 段 声音 中 判断 出 它 的 发 音 模型 (当然 ,仅仅 是 "如果 ”) ,那么 也 就 
能 根据 发 音 过 程 而 知道 它 的 类 别 。 换 句 话说 ,产生 该 模型 的 过 程 ( 或 机 制 ) 的 表达 ,也 就 是 模式 
分 类 器 最 好 的 模型 。 模 式 识别 系统 会 根据 输入 模式 是 怎样 被 合成 的 信息 来 分 析 此 模式 。 目 
然 , 其 技巧 在 于 从 感知 模式 恢复 其 生成 参数 。 

设想 在 设计 一 个 根据 图 像 来 识别 各 种 类 型 的 棒子 的 模式 分 类 系统 时 将 遇 到 的 困难 。 我 
们 知道 有 标准 的 办 公 室 椅 ,摩登 的 卧室 椅 , 还 有 用 豆子 制 成 的 豆 粒 座 垫 椅 等 。 考 碟 到 椅子 的 巨 
大 差异 ,无论 椅子 腿 的 数目 、 用 的 材质 、 几 何 形状 等 等 都 可 能 很 不 相同 ,很 快 你 就 会 感到 非常 挫 
折 和 失望 ,因为 你 甚至 找 不 到 一 个 恰当 的 模式 表达 能 够 描述 所 有 的 椅子 这 类 东西 。 也 许 各 种 
棒子 间 惟 一 共性 的 东西 在 于 其 功能 :一 种 稳固 的 人 工 制 品 ,用 于 支撑 坐 着 的 人 ,并 且 有 一 个 靠 
背 。 这 样 我 们 可 能 试图 从 图 像 中 看 看 是 否 可 以 推理 出 相应 的 功能 。 其 中 ， 支 撑 坐 着 的 人 的 
特性 大 概 可 以 同 其 中 存在 一 个 最 大 的 面 的 表面 朝向 有 关 , 虽 然 关 系 并 不 直接 ,然而 上 述 断 言 必 
须 能 应 付 豆 粒 座 垫 这 种 怪 模 怪 样 的 椅子 所 造成 的 困难 。 当 然 , 还 包括 对 图 像 中 各 种 特性 的 推 
理 理解 过 程 。 因 而 很 自然 的 ,与 其 说 本 问题 是 “模式 识别 ”的 研究 内 容 , 还 不 如 说 属于 “计算 机 
视觉 ”(computer vision) 更 为 恰当 。 

虽然 还 不 至 于 这 人 么 极端 ,但 是 现实 当中 的 很 多 模式 识别 系统 都 力求 嵌入 至 少 必 要 的 有 关 
模式 的 产生 方法 或 其 功能 用 途 的 知识 ,以 期 获得 很 好 的 表达 。 当 然 , 表 达 的 目的 仍 是 为 了 更 好 
的 识别 ,而 不 是 为 了 重新 产生 该 模式 。 举 例 来 说 ,光学 字符 识别 (OCR) 系 统 假设 手写 字符 按 
照 笔划 顺序 写成 的 ,因此 可 首先 从 感知 图 像 中 恢复 各 个 笔划 的 表达 ,然后 再 根据 辨识 出 的 各 笔 
划 ,通过 推理 识别 出 文字 。 
相关 领域 

模式 分 类 技术 不 同 于 经 典 的 统计 “假设 检验 ”(hypothesis testing) 技 术 , 后 者 根据 输入 数 
据 , 判 断 零 假设 (或 原 假 设 、 空 假设 ) Ho 与 备 择 假 设 Hi 中 哪 一 个 成 立 。 简 单 地 说 ,如 果 在 零 假 
设 HH 成立 的 前 提 下 获得 相应 实际 输入 数据 的 概率 小 于 某 个 “显著 性 水 平 ”, 则 我 们 拒绝 零 假 设 
He 而 接受 备 择 假设 Hl。 假设 检验 经 常用 于 检验 某 种 药物 是 否 有 效 ( 这 里 Ho 可 定义 为 该 药 无 
疗效 ) ,也 能 用 于 判断 传送 带 上 的 鱼 究竟 都 来 自 同 一 类 别 ( 比 如 都 是 外 鱼 ) 一 一 作为 零 假 设 ,还 
是 来 自 两 类 一 一 作为 备 择 假 设 。 

模式 分 类 也 不 同 于 “图 像 处 理 ”(image processing)。 在 图 像 处 理 中 ,输入 的 是 一 幅 图 像 ， 
输出 的 也 是 图 像 。 图 像 处 理 的 步骤 常 包 括 图 像 旋转 、 对 比 增强 和 其 他 能 保持 所 有 原始 信息 的 
图 像 变 换 。 而 特征 提取 ,比如 检 出 图 像 中 的 峰 谷 点 ,将 要 损失 信息 (不 过 ,但 愿 还 能 保留 住 对 手 
头 任务 有 用 的 关键 信息 )。 

如 上 所 述 ,特征 提取 器 输入 模式 ,而 输出 特征 值 。 特 征 的 数目 几乎 总 是 少 于 用 于 描述 完整 
的 感 兴趣 的 目标 所 需 的 数据 量 , 因 而 在 这 个 过 程 中 产生 信息 损失 。 而 “联想 存储 器 ”(associa- 





tive memory) 的 功能 是 输入 模式 ,激发 出 另外 一 类 模式 。 这 个 过 程 也 损失 信息 ,但 损失 的 分 量 
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远 比 不 上 模式 分 类 器 所 为 。 简 而 言 之 ,因为 决策 在 模式 判别 信息 中 至 关 重 要 的 作用 ,所 以 它 本 
质 上 就 是 一 个 信息 压缩 过 程 , 不 可 能 仅仅 根据 已 知 某 个 模式 的 类 别 隶 属 就 重 构 该 特定 模式 。 
分 类 过 程 中 ,信息 量 的 损失 更 大 ,将 原来 图 像 中 成 和 于 上 万 比特 的 像素 颜色 信息 压缩 至 几 个 比特 
表示 的 类 别 信 息 ( 例 如 ,在 我 们 的 鱼 分 类 问题 中 只 有 1 比特 )。 

另外 还 有 3 种 密切 相关 的 技术 ,回归 分 析 , 函数 内 揪 , 和 (概率 ) 密 度 估 计 , 也 经 常 要 用 到 模 
式 识 别 系 统 中 。 

在 回归 (regression) 分 析 中 ;我们 的 目的 是 对 输入 数据 找到 合适 的 辐 数 表示 ,常用 于 预测 
新 数据 的 值 。 线 性 回归 dinear regression) , 其 中 的 函数 形式 对 输入 数据 而 言 是 线性 的 ,是 到 


目前 为 止 最 流行 也 是 研究 最 透彻 的 一 种 回归 形式 。 例 如 ,我 们 可 能 发 现 甸 鱼 的 长 度 随 其 年 龄 


或 重量 呈 线 性 改变 。 这 样 就 可 以 采集 许多 的 典型 的 能 鱼 的 年 龄 和 长 度数 据 , 进行 用 线性 回归 
拟 合 出 其 中 的 线性 系数 。 

在 函数 内 插 (interpolation) 中 ,我 们 已 知 的 (或 者 容易 得 出 的 ) 是 一 定 范围 内 的 输入 数据 对 
应 的 函数 值 ,而 要 解决 的 问题 是 如 何 求 出 位 于 这 些 输入 点 之 间 的 数据 点 的 函数 值 。 比 如 ,我 们 
可 以 通过 了 解 在 最 初 两 周 内 ,人 鲜 鱼 的 长 度 如 何 随 年 龄 增长 而 改变 的 ,而 用 任何 一 种 内 插 技 术 来 
推断 在 未 来 两 周 后 乃至 未 来 两 年 之 内 ,能 鱼 长 度 的 变化 规律 。 

密度 函数 估计 (Cdensity estimation) 用 于 求解 具有 某 种 特定 特征 的 类 别 成 员 ( 样 本 ) 出 现 的 
(概率 ) 密 度 的 问题 。 

以 上 相关 技术 常常 被 用 作 模 式 识别 系统 中 的 第 一 个 步骤, 不管 是 显 式 的 运用 或 隐 含 的 运 
用 。 例 如 ,我 们 将 会 看 到 各 种 不 同 的 佑 计 类 别 概 率 密 度 的 方法 。 一 个 未 知 的 模式 将 根据 最 大 
概率 的 准则 进行 分 类 。 因 为 上 述 相 关 的 技术 领域 已 经 高 度 发 展 并 且 普 遍 应 用 ,在 本 书 中 ,我 们 
只 间接 的 提 及 ,而 不 准备 专门 介绍 。 





1.3 ”模式 识别 系统 
图 1-7 ”很 多 模式 
在 描述 假想 的 鱼 类 分 HAAAT iE 
本 操作 ; 预 处 理 、 特 征 提 取 、 声音 等 物理 输入 轿 
ARCHER LD. AITE ě i yo 5 
一 个 典型 模式 分 类 系统 的 及 其 他 物体 分 开 ， 
、 We 量 
详细 组 成 框图 。 必 须知 道 ADEA 
系统 的 每 个 部 件 所 要 解决 分 类 器 根据 特征 给 
up _ ”物体 赋予 类 别 标记 。 
问题 ,才能 知道 设计 这 样 一 RT RN 
个 系统 所 过 到 的 问题 。 让 些 其 他 考虑 ,比如 上 
L NLA 下 文 信息 、 错 误 代 
我 们 -PREMERA ARARA 
中 每 个 部 件 的 作用 ,并 由 此 Æ, 尽管 这 种 描述 
来 考虑 将 遇 到 的 种 种 问题 。 AATA EAA 
1.3.1 传感器 有 些 系统 采用 了 反 
一 个 模式 分 类 系统 的 AEL EEP a P A 
比如 摄像 机 或 麦克 风 阵 列 。 
问题 的 难度 很 大 程度 上 依 


束 于 传 感 带 的 特性 和 局 限 
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性 ,比如 带宽 .分 辨 率 . 灵 人 敏 度 . 失 真 、 信 了 品 比 、 延 妈 等 等 。 模 式 分 类 系统 中 的 传感器 设计 ,尽管 
在 实践 中 同样 重要 ,但 是 已 经 超出 了 本 书 的 范围 。 
1.3.2 ”分割 和 组 织 

在 假想 的 鱼 分 类 的 例子 中 ,我们 严格 假定 每 一 条 鱼 是 孤立 的 , 跟 传 送 带 上 的 其 他 鱼 相 分 离 ， 
并 且 很 容易 同 传送 带 本 身 区 别 开 来 。 而 实际 上 , 鱼 经 常 是 相 邻 着 的 或 者 交友 在 一 起 的 。 这 时 系 
统 就 必须 能 够 区 分 哪里 是 一 条 鱼 的 尾巴 ,哪里 是 另外 一 条 鱼 的 开始 ,每 个 个 体 的 模式 必须 是 被 分 
离开 来 的 。 如 果 已 经 识别 出 各 条 鱼 ,那么 要 分 离 出 它 的 图 像 将 会 变 的 容易 多 了 。 但 是 如 何 能 够 
在 还 没有 把 它 分 类 出 来 之 前 就 能 分 割 图 像 呢 ? 或 者 在 它们 的 图 像 被 分 割 之 前 就 把 它们 分 类 出 来 
E? 似乎 需要 这 样 一 种 方法 , 它 能 告诉 我 们 , 何 时 应 该 从 一 个 模型 转向 另 一 个 模型 ,或 者 何 时 输 
人 数据 中 仅仅 只 有 “背景 ?或 “没有 物体 类 ”。 而 这 种 方法 又 是 如 何 实现 的 呢 ? 

“4 2)” (segmentation) 问题 可 谓 模 式 识别 中 的 最 深层 的 问题 之 一 。 在 自动 语音 识别 中 ， 
我 们 可 以 通过 逐个 识别 出 单个 发 音 ( 比 如 音素 “ss”“k” 等 ) ,然后 再 把 这 些 音素 拼合 和 识别 出 
一 个 单词 。 但 是 看 看 下 面 这 两 个 胡乱 拼凑 起 来 的 单词 ,“sklee” 和 “skloo”, 并 有 旦 尝试 大 声 的 读 
出 来 它们 。 你 会 发 现在 发 “skloo” 这 个 单词 之 前 你 会 首先 嘟 起 嘴 层 (在 发 “00” 这 个 音 之 前 的 所 
谓 “ 圆 哑 ”(rounding) 现 象 ) 。 这 个 “ 圆 困 ? 影 响 了 “ss” 的 发 音 ,使 得 “skloo” 中 发 出 的 “ss” 的 声音 
频率 明显 低 于 发 "sklee” 中 “ss” 的 声音 频率 ,这 种 现象 称 为 “提前 连 读 (anticipatory coarticula- 
tion) 正 因为 这 样 ,音素 “oo0” 出 现在 “k” 和 “1” 的 发 音 之 前 ,并 且 和 “ss” 这 个 音 一 起 发 出 来 ,但 是 
按 道 理 ,“k” 和 “1 这 些 音素 确实 是 应 该 出 现在 “oo0” 之 前 的 。 那 么 我 们 究竟 如 何 才 能 从 这 种 明 
TRAKER PIRH oW? 或 者 ,我 们 是 否 还 有 必要 尝试 去 分 割 它 们 呢 ? 或 许 我 们 
正在 错误 的 尺度 上 进行 特征 组 织 , 而 实际 上 用 于 识别 的 有 效 基 元 会 更 大 一 些 ( 例 恕 ,分割 出 整 
个 的 单词 或 者 短语 )。 

跟 分 割 紧 密 联 系 的 是 如 何 识别 或 组 织 一 个 复合 物体 的 不 同 部 分 。 字 母 “i” 或 者 符号 “=” 
都 有 两 个 组 合成 分 ,但 我 们 能 看 出 来 这 是 一 个 符号 (而 不 是 两 个 )。 我 们 可 以 轻而易举 的 识别 
出 一 个 简单 的 单词 ,例如 “BEATS”。 但 是 考虑 一 下 ,为 什么 我 们 没有 从 这 一 串 字 母 中 一 下 子 
识别 出 若干 连 贯 子 集 来 组 成 其 他 的 单词 呢 ? 就 像 BE、.BEAT、EAT、AT 和 EATS。 为 什么 ( 除 
非 去 格外 的 注意 它们 ) 这 些 单词 不 会 一 下 子 出 现在 我 们 的 脑海 中 呢 ? 或 者 为 什么 我 们 看 见 B 
的 时 候 , 不 认为 这 是 P 或 者 是 I 呢 ,尽管 P 和 II 都 确实 是 组 成 B 的 一 个 部 件 。 相 反 的 ,我 们 为 
什么 能 够 从 “POLOPONY” 中 分 割 出 两 个 单词 ,尽管 它们 之 间 没 有 空格 ,而 没有 误 认为 是 一 个 
完整 的 单词 呢 ? 

这 就 是 “ 子 集 和 超 集 ”(subset and superset) 的 问题 ,是 “组 织 结 构 学 ”(mereology) 的 研究 
内 容 , 是 研究 部 分 与 整体 关系 的 一 个 学 科 领 域 。 看 起 来 ,最 好 的 分 类 器 在 分 类 过 程 中 会 输入 尽 
可 能 多 的 (使 之 "有 意义 2 的) 信息, 但 也 不 是 过 分 多 。 这 个 将 怎样 自动 实现 呢 ? 

1.3.3 “特征 提取 

从 概念 上 划分 “特征 提取 器 ”和 “模式 分 类 器 ”两 个 部 件 存在 一 些 随意 性 。 一 个 “理想 的 ” 特 
征 提 取 器 应 该 产生 一 个 表达 ,以 使 得 后 继 的 分 类 器 的 工作 变 的 稀 松 平常 。 相 反 , 一 个 “万 能 的 ” 
分 类 器 将 不 必 供 助 于 复 末 的 特征 提取 器 (就 能 独立 完成 任务 ) 。 之 所 以 (在 概念 上 ) 区 别 对 竺 二 
者 ,仅仅 是 出 于 实践 中 的 考虑 ,而 并 非 理论 上 的 原因 。 

特征 提取 器 通常 要 提取 具有 如 下 性 质 的 特征 描述 , 即 , 来 自 同一 类 别 的 不 同样 本 的 特征 值 
应 该 非常 相近 ,而 来 自 不 同类 别 的 样本 的 特征 值 应 该 有 很 大 的 差异 。 这 让 我 们 产生 了 提取 最 
有 “鉴别 “distinguishing) 能 力 的 特征 的 想法 ,这 些 特征 对 与 类 别 信息 不 相关 的 变换 具有 不 变 
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性 (invariant) 。 在 鱼 的 例子 中 ,传送 带 上 的 鱼 的 绝对 坐标 位 置 跟 类 别 信 息 无 关 , 因 此 特征 描述 
中 可 以 不 考虑 鱼 的 绝对 位 置 。 理 想 情况 下 ,特征 描述 应 当 对 平移 变换 保持 不 变 , 不 管 在 水 平 或 
者 垂直 方向 上 都 希望 不 变 。 因 为 旋转 对 分 类 也 是 无 关 的 ,所 以 我 们 同样 希望 特征 是 旋转 不 变 
的 。 最 后 , 鱼 的 大 小 可 能 并 不 重要 ,一 条 幼小 的 甸 鱼 仍然 是 一 条 儿 鱼 。 因 此 ,我 们 还 希望 特征 
应 当 是 扩 度 不 变 的 。 总 之 ,用 来 描述 诸如 形状 .颜色 和 不 同 纹理 等 属性 的 特征 量 应 该 是 平移 不 
E The FS AS BE AR BE AR EY 

事实 上 ,因为 鱼 基本 上 是 平 放 在 传送 带 上 的 ,并 且 旋 转轴 通常 是 平行 于 相机 的 光 轴 ,所 以 
从 这 种 由 正 上 方 摄 像 机 拍摄 的 “ 鱼 在 传送 带 上 ”的 图 像 中 寻找 旋转 不 变 特 征 的 问题 已 经 被 大 大 
简化 了 。 而 一 个 更 一 般 的 旋转 不 变性 应 该 能 处 理 相 对 三 维 空间 中 的 任意 一 条 线 的 旋转 问题 。 
就 像 咖啡 杯 这 样 一 个 “简单 物体 的 图 像 应 该 经 受 得 住 各 种 基本 变形 ,比如 杯子 可 以 任意 角度 
转动 ,杯子 的 柄 有 可 能 看 不 见 一 一 因为 它 被 杯子 的 其 他 部 分 遮挡 了 。 通 过 旋转 ,我 们 可 以 看 到 
杯子 内 部 或 底部 , 圆 形 的 杯 口 可 能 变 成 李 圆 , 直 边 也 可 能 被 遮挡 等 等 。 而 且 , 假 如 杯子 和 摄像 
机 之 间 的 距离 可 以 调整 ,图像 可 能 要 经 受 透视 失真 的 影响 。 在 如 此 复杂 的 变换 下 我 们 怎样 才 
能 确保 特征 是 “不 变 ” 的 呢 ? 或 者 ,我 们 是 否 应 该 为 杯子 的 不 同 旋 转 情 况 下 的 不 同 图 像 定 义 不 
同 的 子 集 ,然后 通过 更 高 层 的 处 理 来 实现 旋转 不 变 呢 ? | 

在 语音 识别 中 ,我们 期 望 特征 描述 对 时 间 平 移 和 整体 振幅 的 改变 是 不 变 的 。 我 们 可 能 还 
希望 跟 单词 的 持续 时 间 无 关 , 也 就 是 说 , 跟 一 个 模式 发 出 的 速率 无 关 。 在 语音 识别 中 发 音速 率 
是 一 个 严重 的 问题 。 这 不 仅 因为 不 同 的 人 的 说 话语 速 不 同 ,而且 即使 是 同一 个 人 ,他 也 可 能 会 
调整 语 速 ,使 得 演讲 更 加 抑扬顿挫 。 同 样 的 ,自然 手写 体 也 因为 书写 的 速度 加 快 而 富 于 变化 。 
字母 1 上 的 一 点 ,t 和 ff 的 一 模 是 最 影响 书写 速度 的 因素 ,但 对 于 le 等 就 不 那么 明显 了 。 我 们 
怎样 设计 一 个 识别 器 能 自动 根据 速率 的 变化 而 在 不 同 的 类 别 中 调整 它 的 模式 特征 表达 ? 

模式 识别 中 经 常 采用 很 多 非常 复杂 的 变换 ,并 是 很 多 都 是 与 具体 领域 相关 的 。 例 如 ,我 们 
可 以 设计 手写 文字 识别 器 ,让 它 跟 笔划 的 粗细 完全 无 关 。 更 有 其 者 ,在 三 维 物体 识别 领域 会 出 
W 非 刚 性 变形 ”, 比 如 拍摄 有 关 手 的 动作 的 图 像 , 当 你 担 一 个 物体 或 打 个 响 指 等 时 候 , 你 的 手 
所 经 历 的 变形 就 是 非 刚性 变形 。 同 样 的 ,我 们 必须 考虑 到 照明 的 明暗 变化 和 投射 出 的 阴影 的 
ESAP 

跟 分 割 一 样 , 特 征 提取 相 比 分 类 更 加 依赖 于 具体 问题 和 具体 领域 ,因此 相应 领域 的 知识 是 
必需 的 。 一 个 性 能 高 超 的 鱼 类 分 类 器 可 能 在 指纹 识别 或 者 识别 显 微 血 细胞 时 毫 无 作用 。 然 
而 ,在 设计 特征 提取 器 时 可 以 利用 模式 分 类 的 某 些 基 本 原则 。 本 书 讲述 的 模式 分 类 技术 虽 不 
能 替代 专门 领域 知识 ,但 是 它们 能 帮助 获取 对 噪声 不 敏感 的 特征 值 。 在 某 些 情况 下 ,这 些 技术 
还 能 帮助 如 何 从 一 大 堆 可 能 的 特征 中 选择 最 有 价值 的 特征 。 
1.3.4 分 类 器 

系统 中 的 分 类 恬 的 作用 是 :根据 特征 提取 器 得 到 的 特征 向 量 来 给 一 个 被 测 对 象 赋 一 个 类 
别 标 记 。 分 类 器 的 设计 在 本 书 中 占 了 很 大 比重 。 因 为 完美 的 分 类 性 能 通常 是 不 可 能 获得 的 ， 
更 一 般 的 任务 是 确定 每 一 个 可 能 类 别 的 概率 。 由 输入 数据 特征 向 量 表示 所 提供 的 抽象 ,使 得 
建立 大 规模 领域 独立 的 分 类 理论 成 为 可 能 。 

分 类 的 难 易 程度 取决 于 两 个 因素 ,其 一 是 来 自 同 一 个 类 别 的 不 同 个 体 之 间 的 特征 值 的 波 
动 。 其 二 是 属于 不 同类 别 的 样本 的 特征 值 之 间 的 差异 。 来 自 同类 对 象 的 个 体 特征 值 的 波动 可 
能 是 来 自问 题 的 复杂 度 ,也 可 能 来 自 噪声 。 这 里 我 们 所 定义 的 噪声 是 一 个 非常 广义 的 概念 :如 
采 一 个 感知 到 的 模式 属性 并 非 来 自 真正 模式 的 模型 ,而 是 来 自 环境 中 的 某 种 随机 性 或 者 是 传 
感 器 的 性 能 缺憾 ,那么 就 是 噪声 。 所 有 非 平 凡 的 决策 和 模式 识别 问题 在 都 包含 了 某 种 形式 的 
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品 声 。 有 没有 最 好 的 方式 来 设计 一 个 能 对 付 所 有 这 些 品 声 的 分 类 器 呢 ? 最 终 可 能 达到 的 最 优 
分 类 性 能 又 是 什么 呢 ? 

实际 应 用 上 常常 遇 到 这 样 的 问题 :从 一 个 输入 中 试图 确定 所 有 的 特征 值 通常 是 不 可 能 的 。 
例如 ,在 假想 的 鱼 的 分 类 器 系统 中 ,也 许 无 法 准确 确定 一 条 鱼 的 宽度 ,因为 它 可 能 会 被 其 他 的 
鱼 遮 挡 。 该 如 何 对 此 做 出 补偿 呢 ? 因为 我 们 的 2- 特 征 分 类 器 根本 无 法 在 某 个 特征 丢失 的 情况 
下 作出 单个 特征 变量 xz* 的 判决 (图 1-3)。 它 怎么 可 能 根据 仅 存 的 特征 作出 最 优 判决 呢 ? 一 种 

朴素 的 想法 是 假定 丢失 的 特征 值 是 零 ,或 者 是 其 他 已 被 观测 到 的 模式 的 该 特征 的 平均 值 。 这 
样 做 的 结果 很 明显 将 不 是 最 优 的 。 同 样 的 ,我 们 怎样 才能 训练 或 使 用 一 个 部 分 特征 丢失 了 的 
分 类 器 呢 ? 

1.3.5 后 处 理 

分 类 器 不 是 虚 约 的 东西 。 正 相反 , 它 一 般 要 执行 一 个 推荐 的 具体 的 动作 (例如 ,把 这 条 人鱼 
放 在 这 个 桶 里 ,而 把 那 条 鱼 放 在 那个 桶 里 ) ,每 个 动作 都 要 付出 相关 的 代价 。 后 处 理 器 利用 分 
类 器 的 输出 结果 来 确定 合适 的 动作 。 

从 概念 上 讲 ， 最 简单 的 分 类 器 性 能 度量 是 分 类 误差 率 ， 新 模式 被 标记 为 错误 类 别 的 百 分 
比 。 因 此 ,一 般 的 做 法 是 寻求 具有 最 低 分 类 误差 率 的 分 类 器 。 然 而 ,更 好 的 做 法 是 ,推荐 一 个 
能 够 降低 总 体 代价 [ 称 为 “风险 ”risk)] 的 动作 。 怎 样 在 模式 识别 中 嵌入 有 关 代 价 的 知识 ?并 
且 , 这 些 代 价 知 识 对 分 类 器 将 产生 怎样 的 影响 ? 通过 估计 总 体 风 险 的 方法 ,我 们 是 否 能 够 在 具 
体 使 用 一 个 分 类 器 之 前 就 判断 它 是 否 是 可 接受 的 呢 ?” 是 否 可 以 估计 任意 分 类 器 的 最 低 可 能 的 
风险 ,然后 看 看 我 们 的 分 类 器 跟 理想 情况 的 接近 程度 如 何 ? 或 者 问题 本 身 确实 太 难 了 而 根本 
无 法 处 理 ? 

后 处 理 器 可 能 采用 “上 下 文 信息 ”Ccontext) 来 改善 系统 的 性 能 。“ 上 下 文 ” 通 常 来 源 于 输入 
数据 的 信息 ,而 不 是 目标 模式 本 身 。 假 定 在 光学 字符 识别 系统 中 ,我 们 遇 到 一 个 T/ AAAE C/-\ 
T 的 序列 ,虽然 系统 可 能 无 法 识别 /-\ 为 任何 独立 的 英文 字母 ,但 是 通过 上 下 文 可 以 清楚 地 看 
到 第 一 个 字母 (应 该 ) 是 再 ,第 二 个 (应 该 ) 是 A。 上 下 文 信息 是 很 复杂 和 很 抽象 的 概念 。 
“jeetyet?” 这 句 话 听 上 去 是 毫 无 意义 的 ,但 是 如 果 是 午餐 时 间 你 在 自助 餐厅 里 听 到 一 个 朋友 在 
问 “did you eat yet?” 呢 ?这 样 一 种 视觉 和 时 间 上 的 “上 下 文 语 境 ” 究 竟 是 怎样 影响 语音 识别 的 
WE? 

在 鱼 的 例子 里 ,我们 已 经 知道 怎样 使 用 多 个 特征 来 改善 识别 器 。 如 果 我 们 做 得 更 好 一 些 
可 以 设想 (组 合 ) 使 用 多 个 分 类 器 ,其 中 每 个 分 类 器 对 输入 信和 号 的 不 同方 面 起 作用 。 例如 ,结合 全 
声音 识别 和 (基于 视频 图 像 的 ) 唇 读 技术 来 改进 一 个 语音 识别 器 的 性 能 。 

如 果 所 有 的 分 类 器 都 接受 一 个 特定 的 模式 ,那么 就 不 存在 什么 困难 。 但 是 如 果 不 接受 呢 ? 
“超级 ”分 类 器 如 何 能 够 根据 各 个 子 分 类 器 的 投票 中 获得 最 优 的 决策 ? 设想 由 10 位 专家 在 一 
起 判断 一 条 鱼 是 否 生 病 。 当 其 中 9 个 认为 这 鱼 是 健康 的 ,而 只 有 一 个 反对 ,可 谁 是 正确 的 呢 ? 
事实 上 , 那 惟一 的 反对 者 完全 有 可 能 是 惟一 的 正确 者 ,假如 该 鱼 的 病症 是 如 此 罕见 而 只 有 他 部 
悉 的 话 .“ 超 级 ”分 类 器 又 如 何 知 道 何 时 该 根据 少数 派 的 意见 作 决 策 ? 特别 是 当 问 题 领域 很 广 
泛 而 超出 专家 力所能及 的 范围 时 。 

本 节 中 我 们 提出 的 问题 远 比 解决 的 问题 多 。 目 的 主要 在 于 强调 模式 分 类 问题 的 复杂 性 。 
应 当 据 弃 那 种 认为 单一 方法 就 能 解决 所 有 模式 识别 问题 的 天 真 想法 。 本 书 中 会 讲述 很 多 基本 
的 有 效 的 分 类 算法 。 辐 时 我 们 也 会 看 到 一 些 与 领域 并 不 密切 相关 的 技术 ,如 分 割 、 特 征 提 取 和 

[13] 后 处 理 。 无 论 如 何 , 对 复杂 的 模式 识 ! 别 门 题 的 解 避 通 党 必须 充分 和 月 领域 的 过 门 知识 。 
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-1.4 设计 循环 


设计 一 个 模式 识别 系统 通常 涉及 如 下 几 个 不 同步 又 的 重复 :数据 采集 .特征 选择 RAK 
择 .训练 和 评估 。 本 节 将 对 这 一 设计 循环 (如 图 1-8 所 示 ) 做 一 个 概述 ,并 考虑 常见 的 问题 。 


图 1-8 ”设计 模式 开始 
识别 系统 包含 这 里 
的 一 个 设计 循环 。 

采集 数据 
数据 必须 首先 被 采 
集 。 数 据 的 特性 描 
选择 和 模型 选择 。 先 验 知识 一 ae 
然后 分 类 器 要 被 训 CAM FEH) ~- 
练 以 确定 系统 的 参 
K FALERA 
导致 前 面 处 理 的 多 


次 重复 ,以 得 到 满 
评价 分 类 器 


结束 


1.4.1 数据 采集 

在 开发 一 个 模式 识别 系统 总 的 费用 中 ,数据 采集 部 分 占 到 令 人 吃惊 的 大 比重 。 当 然 , 采 用 
较 小 的 “典型 ”样本 集 对 问题 的 可 行 性 进行 初步 研究 也 是 可 以 的 ,但 为 了 确保 现场 工作 时 良好 
的 性 能 ,必须 要 采集 和 利用 多 得 多 的 样本 数据 。 可 是 怎样 才能 知道 已 经 采集 到 足够 多 有 代表 
性 的 供 训 练 和 性 能 测试 用 的 数据 了 呢 ? 
1.4.2 特征 选择 

根据 特定 的 问题 领域 的 性 质 , 选 择 有 明显 区 分 意义 的 特征 ,是 设计 过 程 中 非常 关键 的 一 
步 。 实 实在 在 的 拿 到 样本 数据 ,比如 传送 带 上 的 鱼 的 照片 ,诚然 有 利于 选择 特征 。 但 是 , 先 验 
知识 同样 有 重要 的 作用 。 

在 假想 的 鱼 分 类 问题 中 ,有 关 不 同 鱼 种 的 光泽 度 的 先 验 知识 对 于 确定 可 行 的 合理 的 特征 
及 设计 分 类 器 大 有 有 帮助。 当然, 做人 知识 的 过 程 可 以 更 微妙 或 更 复杂 。 在 一 些 应 用 中 ,知识 实 
际 上 是 从 生成 模型 的 信息 导出 的 ,比如 我 们 看 到 的 “基于 综合 的 分 析 ” 技 术 。 其 他 一 些 应 用 中 ， 
知识 或 许 来 源 于 被 考察 的 模式 的 形态 , 它 的 特定 属性 。 比 如 人 上 脸 是 由 两 只 眼睛 和 一 个 鼻子 组 
成 等 等 。 

在 选择 或 设计 特征 的 过 程 中 ,很 显然 ,我 们 希望 发 现 那 些 容易 提取 、 对 不 相关 变形 保持 不 
变 、 对 噪声 不 敏感 ,以 及 对 区 分 不 同类 别 的 模式 很 有 效 的 特征 集 。 但 是 ,要 怎么 做 才能 把 先 验 
知识 和 实验 数据 有 机 结合 起 来 ,以 发 现 有 用 的 和 有 效 的 特征 呢 ? 
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1.4.3 模型 选择 

我 们 也 许 对 图 1-4 和 图 1-5 的 鱼 分 类 器 的 性 能 不 满意 ,因而 想 尝试 一 下 完全 不 同 的 类 别 
模型 。 例 如 , 想 利用 鳍 的 位 置 和 数目 .眼睛 的 颜色 、 重 量 、 嘴 的 形状 等 构成 特征 实现 分 类 函数 ， 
我 们 怎样 才能 知道 设 定 的 类 别 模型 与 真实 世界 的 模型 存在 明显 差异 ,因而 需要 更 换 新 的 模型 
呢 ? 简 而 言 之 ,我 们 怎样 知道 应 该 拒绝 一 类 模型 而 去 尝试 另 一 个 呢 ? 作为 设计 者 ,难道 我 们 从 
来 也 不 知道 怎样 才能 得 到 预期 的 性 能 改善 ,而 只 有 一 味 的 重复 单调 的 随机 尝试 来 进行 模型 选 
FE? 或 者 也 可 能 存在 某 些 原则 性 的 方法 ,能 够 指导 我 们 何 时 应 该 放弃 一 个 而 采纳 另外 一 个 模 
型 ? 
1.4.4 ”训练 

大 体 说 来 ,利用 样本 数据 来 确定 分 类 器 的 过 程 称 为 训练 分 类 器 。 本 书 用 很 大 篇 幅 来 讨论 
各 种 各 样 不 同 的 训练 和 选择 模型 的 算法 。 

我 们 已 经 看 到 设计 模式 识别 系统 中 所 会 遇 到 的 多 种 问题 。 没 有 一 个 通用 方法 可 以 解决 所 
有 的 问题 。 然 而 过 去 25 年 来 的 反复 试验 和 经 验 表 明 “ 基 于 样本 的 学 习 ” 的 方法 是 设计 分 类 器 
最 有 效 的 方法 。 贯 穿 本 书 ,我们 将 一 再 看 到 “基于 样本 的 学 习 ” 的 方法 如 何 成 为 模式 识别 的 中 
心 问 题 ,以 及 它们 在 模式 识别 系统 的 实践 中 的 本 质地 位 。 
1.4.5 评价 

在 鱼 分 类 问题 中 , 当 我 们 从 单一 特征 切换 到 两 个 特征 时 ,所 依据 的 理由 是 ,单一 特征 的 分 
类 误差 率 的 评价 (evaluation) 不 够 好 ,并 且 完 全 有 可 能 做 得 更 好 。 当 用 图 1-4 的 直线 分 界面 处 
理 图 1-5 那 种 复杂 模型 时 ,同样 存在 一 个 评价 认为 完全 有 可 能 做 得 更 好 。 评 价 对 于 评测 系统 
的 性 能 以 及 决定 是 否 有 必要 改进 其 组 成 部 件 时 ,起 着 重要 的 作用 。 

尽管 一 个 过 分 复杂 的 系统 单纯 对 训练 样本 集 能 获得 完美 的 表现 ,但 对 于 新 样本 则 可 能 不 
令 人 满意 。 这 种 观察 到 的 现象 称 为 “过 拟 合 ”(overfitting)。 统 计 模 式 识别 中 最 重要 的 研究 领 
域 之 一 就 是 确定 如 何 折 中 调整 模型 的 复杂 程度 : 即 不 能 太 简 单 以 至 于 不 足以 描述 模式 类 间 的 
差异 ,又 不 能 太 复 杂 而 对 新 样本 的 分 类 能 力 很 差 。 是 否 存 在 原则 性 的 方法 能 确定 一 个 分 类 器 
具有 的 最 佳 的 (中 等 程度 的 ) 复 杂 度 ? 
1.4.6 ”计算 复杂 度 

有 些 模式 识别 问题 确定 可 用 某 种 算法 “解决 ,虽然 很 不 切合 实际 。 比 如 ,在 光学 字符 识别 
中 ,对 20X20 的 二 值 点 阵 图 像 的 所 有 可 能 情况 都 进行 分 类 标记 ,然后 用 “查找 表 ” 的 方式 对 输 
和 人 样本 分 类 。 尽 管 从 理论 上 说 ,确实 可 以 达到 无 错误 的 识别 结果 ,但 是 由 于 需要 处 理 20x =: 
10“ 个 模式 ,其 中 的 要 花费 的 类 别 标 记 时 间 和 存储 容量 要 求 都 惊人 的 大 ,大 到 根本 无 法 实现 。 
因此 ,考虑 不 同 算法 的 计算 资源 消耗 和 计算 复杂 度 有 着 重要 的 实践 意义 。 

用 更 正规 的 术语 ,我 们 可 能 会 问 某 个 算法 的 “计算 复杂 度 ”(computational complexity) 是 
所 采用 的 特征 维 数 .或 模式 的 数目 .或 类 别 数 的 什么 函数 ? 在 计算 简便 性 和 分 类 性 能 上 存在 什 
么 样 的 折 中 ? 对 有 些 问题 中 ,我 们 知道 在 不 考虑 工程 上 的 约束 的 前 提 下 ,确实 能 够 设计 一 个 性 
能 非常 优秀 的 识别 器 。 但 是 如 果 存 在 工程 上 的 约束 ,该 如 何 优化 设计 方案 ? 相 比 识别 算法 而 
言 ,我们 通常 对 于 学 习 算 法 的 复杂 度 考虑 得 更 少 ,因为 前 者 是 在 实验 室 里 完成 的 (通常 的 看 法 
是 : 慢 一 点 没关系 ) ,而 后 者 要 在 现场 环境 工作 。 尽 管 计算 复杂 度 常常 与 设 定 的 模型 的 复杂 
有 关联 ,但 二 者 在 概念 上 是 完全 不 同 的 。 


1.5 学 习 和 适应 
最 广义 的 讲 ,任何 设计 分 类 器 时 所 用 的 方法 ,只 要 它 利 用 了 训练 样本 的 信息 ,都 可 以 认为 
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运用 了 学 习 ( 算 法 ) 。 实 践 中 和 有 意义 的 模式 识别 系统 都 是 如 此 困难 ,以 至 于 根本 无 法 事先 猜 


测 出 一 个 最 佳 的 分 类 判决 。 因 此 我 们 大 部 分 的 时 间 都 用 于 研究 学 习 问 题 。 建 造 分 类 器 的 过 程 
要 涉及 :给 定 一 般 的 模型 或 分 类 器 的 形式 ,利用 训练 样本 去 学 习 或 估计 模型 的 未 知 参数 。 这 里 
的 学 习 是 指 用 茶 种 算法 来 降低 训练 样本 的 分 类 误差 。 一 大 类 基于 梯度 下 降 的 算法 ,能 够 调节 
分 类 船 的 参数 ,使 它 朝 着 能 够 降低 误差 的 方向 前 进 , 目 前 已 成 为 统计 模式 识别 领域 的 主流 学 习 
算法 。 对 此 ,本 书 将 作 充 分 的 关注 。 学 习 算 法 通常 有 以 下 几 种 一 般 的 形式 。 
1.5.1 有 监督 学 习 

在 有 监督 学 习 中 ,存在 一 个 教师 信号 ,对 训练 样本 集中 的 每 个 输入 样本 能 提供 类 别 标记 和 
分 类 代价 ,并 寻找 能 降低 总 体 代 价 的 方向 。 我 们 怎样 才能 知道 一 个 特定 的 学 习 算法 对 给 定 的 
问题 能 够 找到 对 参数 变动 仍然 保持 稳定 的 解 ” 我 们 怎样 才能 判定 某 个 算法 一 定 能 在 有 限 步 内 
收敛 ,或 者 说 ,是 理 它 的 复杂 程度 对 给 定 的 训练 样本 .输入 特征 数 和 类 别 数 来 说 是 合理 的 ? 并 
且 能 确保 学 习 算 法 优先 倾向 于 “简单 ”的 解 ( 图 1-6) ,而 非 过 分 复杂 的 解 (图 1-5)? 
1.5.2 无 监督 学 习 

在 无 监督 学 习 算 法 或 “ 聚 类 算法 ”中 并 没有 显 式 的 教师 。 系 统 对 输入 样本 自动 形成 “ 聚 类 ?” 
Ccluster) 或 “ 目 然 的 ”组 织 。 所 谓 “ 自 然 ” 与 否 是 由 紊 类 系统 所 采用 的 显 式 或 隐 式 的 准则 确定 
的 。 给 定 一 个 特定 的 模式 集 和 代价 函数 ,不 同 的 聚 类 算法 将 导致 不 同 的 结果 。 通 常 要 求 用 户 
事先 指定 预定 的 聚 类 的 数目 。 但 如 何 做 到 这 一 点 呢 ? 如 何 才 能 避免 不 恰当 的 模式 表达 ? 
1.5.3 强化 学 习 

训练 模式 分 类 器 的 典型 做 法 是 ,给 定 一 个 输入 样本 ,计算 它 的 输出 类 别 , 把 它 与 已 知 的 类 
别 标记 作 比 较 ,根据 差 异 来 改善 分 类 器 的 性 能 。 例 如 在 光学 字符 识别 系统 中 ,输入 的 是 一 个 字 
符 的 图 像 , 比 如 分 类 器 目前 的 输出 是 字符 类 别 R, 而 实际 的 类 别 应 该 是 B。 在 “强化 学 习 ”(re- 
inforcement learning) 或 “基于 评价 的 学 习 ”(learning with a critic) 中 ,并 不 需要 指明 目标 类 别 
的 教师 信和 号。 相反 的 , 它 只 需要 教师 对 这 次 分 类 任务 完成 情况 给 出 “对 ”或 “ 错 ” 的 反馈 。 这 就 
好 像 是 说 一 个 评价 仅仅 给 出 了 某 种 判断 是 “对 ”还 是 “ 错 ”, 而 没有 给 出 “ 错 ” 在 哪里 。 在 模式 识 
别 中 ,最 普通 的 评价 是 一 个 二 值 的 标量 :“ 对 ”或 者 “ 错 ”。 那 么 ,系统 将 如 何 才能 从 这 种 不 明确 
的 反馈 中 进行 学 习 ? 
1.6 XA 

看 到 这 里 ,读者 或 许 被 模式 识别 问题 的 数量 .复杂 度 和 子 问题 的 范畴 摘 得 晕 头 转向 。 而 
且 , 上 述 子 问题 很 少 是 孤立 的 ,它们 彼此 难免 有 相干 性 。 例 如 ,在 降低 分 类 器 复杂 程度 的 努力 
中 ,应 充分 赋予 其 处 理 各 种 不 变性 的 能 力 。 

我 们 指出 ,模式 识别 的 进展 至 少 从 以 下 三 重 意义 上 传达 出 积极 的 信息 :(1) 问 题 一 定 可 以 
解决 ,因为 人 和 生物 体 的 识别 能 力 是 最 好 的 “存在 性 证 明 ”; (2) 解 决 其 中 很 多 问题 的 数学 理论 
已 被 发 展 起 来 ;(3) 还 有 许多 吸引 人 的 未 解 问题 为 进一步 的 研究 发 展 提 供 了 丰富 的 机 遇 ， 


全 书 各 章 概 要 


本 书 首先 研究 了 关于 模型 的 大 量 信息 (比如 概率 密度 .分 布 形式 .类别 标 记 等 ) 事 先 都 已 经 
知道 的 情况 。 接 下 来 逐 章 深化 ,分 别 研究 概率 分 布 形式 未 知 , 甚 至 训练 样本 的 类 别 归 属 也 未 知 
的 情况 。 

本 书 开头 的 第 2 章 ( 贝 叶 斯 决策 理论 ?研究 了 模式 类 的 概率 结构 完全 知道 的 理想 情况 。 虽 
然 这 种 情况 很 少 可 能 出 现在 实际 中 ,但 是 它 为 我 们 提供 了 一 个 能 与 其 他 分 类 器 作对 比 的 一 个 
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评价 依据 , 即 “ 最 优 ( 贝 叶 斯 ) 分 类 器 ”。 而 且 它 允许 我 们 预测 当 推 广 到 新 模式 时 的 最 小 的 误差 
率 


第 3 章 ( 最 大 似 然 和 贝 时 斯 参数 估计 ) 讲 述 了 当 模 式 类 的 概率 结构 未 知 , 但 一 般 的 分 布 的 
形式 已 知 的 情况 下 的 问题 。 此 时 的 概率 分 布 中 存在 的 不 确定 性 ,是 由 若干 参数 值 未 知 所 引起 
的 。 为 获得 最 好 的 分 类 效果 ,我 们 需要 尝试 估计 出 正确 的 参数 值 。 

在 第 4 章 ( 非 参数 技术 ) 中 ,我 们 将 走 得 更 加 远离 贝 叶 斯 理想 情况 。 在 这 里 ,甚至 连 参数 化 
的 先 验 分 布 形式 的 任何 知识 都 没有 。 分 类 器 必须 基本 上 只 利用 输入 训练 样本 自身 提供 的 信息 
来 工作 。 一 些 经 典 技术 ,诸如 最 近邻 法 , 势 图 数 技术 将 在 这 里 起 重要 的 作用 。 

到 第 5 章 ( 线 性 判别 函数 ) ,我 们 转 而 研究 参数 估计 的 一 般 方法 。 我 们 假定 所 谓 的 “判别 函 
数 ” 在 这 里 只 具有 一 种 十 分 特殊 的 形式 一 一 线性 。 我 们 将 推导 出 一 种 增 量 学 习 规 则 。 

接着 到 第 6 章 ( 多 层 神经 网 络 ) ,我 们 将 看 到 将 线性 判别 的 思想 推广 到 训练 多 层 神 经 网 络 
的 十 分 有 效 的 算法 。 神 经 网 络 技 术 具 有 一 系列 优秀 的 特性 ,使 之 成 为 当代 模式 识别 研究 的 一 
NEFA M. 

第 7 章 ( 随 机 方法 ) 我 们 讨论 模拟 退火 算法 和 玻 尔 兹 曼 (Boltzmann) 学 习 算法 ,它们 能 够 克 
服 神经 网 络 计 算 所 遇 到 的 部 分 困难 。 

第 8 章 ( 非 度量 方法 ) 不 再 基于 统计 模型 ,我 们 转 而 研究 可 用 逻辑 规则 表达 的 一 类 问题 。 
我 们 将 讨论 “ 树 分 类 算法 ”比如 CART 算法 , 它 也 能 应 用 到 统计 数据 分 析 上 )》、 串 的 识别 、 以 及 
基于 文法 规则 的 句法 (结构 ) 模 式 识 别 。 

第 9 章 ( 独 立 于 算法 的 机 器 学 习 ) 是 本 书 最 重要 也 是 最 难 的 章节 之 一 。 许 多 很 微妙 ,然而 
又 至 关 重 要 的 具有 理论 和 实践 意义 的 结论 将 被 讨论 。 这 其 中 包括 偏差 一 方差 关系 、 自 由 度 问 
题 .设计 “简单 ?分 类 器 的 必要 性 ,以 及 计算 复杂 度 等 问题 。 在 某 种 意义 上 ,只 有 懂得 了 本 章 的 
绪论 , 才 可 能 透彻 的 理解 和 更 好 的 运用 其 他 章节 的 知识 。 

第 10 章 ( 无 监督 学 习 和 聚 类 ) ,我 们 总 结 了 在 输入 训练 样本 的 类 别 标记 也 未 知 的 情况 下 ， 
识别 器 如 何 发 现 聚 类 结构 。 我 们 也 处 理 类 似 的 问题 , 即 “ 基 于 评价 的 学 习 问 题 ”, 也 就 是 说 , 当 
样本 输入 后 ,对 应 教师 信号 仅仅 是 一 个 1 比特 的 判决 :如 果 识 别 正确 , 则 给 出 “yes” 的 信号, 反 
之 给 出 “no”。 
文献 和 历史 评述 


分 类 是 所 有 智能 系统 面 对 纷 繁复 杂 的 传感器 数据 时 ,从 中 提取 出 有 意义 信息 时 所 采取 的 
第 一 个 关键 的 处 理 步 又 。 在 西方 世界 中 ,有 关 模 式 识别 基础 的 讨论 最 早 可 追 湖 到 柏拉图 [2]， 
进而 被 亚 里 士 多 德 [1」 所 发 展 。 亚 里 士 多 德 将 事物 的 性 质 区 分 为 “本 质 属性 ”( 指 某 一 类 或 他 
称 之 为 “自然 类 ”(natural kind) 的 所 有 成 员 的 共同 性 质 ) 和 “例外 属性 ”(accidental property) 
( 指 类 中 成 员 间 的 不 同性 质 )。 而 模式 识别 的 任务 就 是 找 出 某 “ 类 ”事物 的 “本 质 属性 ”。 东 方志 
界 中 ,禅宗 的 创始 人 达 摩 常 指 着 一 个 事物 问 其 学 生 ;:“ 这 是 什么 ?”, 并 以 此 作为 一 种 探究 心灵 中 
深层 理念 的 方法 ,比如 识别 一 件 东 西 的 本 性 ,或 者 分 类 与 判断 的 真 诺 。[L3]」 这 也 是 哲学 中 认识 
论 所 研究 的 中 心 问题 , 即 ,试图 发 现 知识 的 本 质 。 鉴 于 本 书 只 关心 技术 实现 的 问题 ,关于 模式 
识别 有 关 的 哲学 问题 的 现代 评述 ,读者 可 参考 文献 L[22]、L4j 和 [L18j。 文 献 L10j 是 有 关 人 工 智 
能 和 模式 识别 基础 的 一 本 贷 有 趣味 ,同时 又 富有 洞察 力 和 深刻 见解 的 小 册子 。 还 有 许 许 多 多 
的 综述 和 参考 书 , 包 括 文献 [5j、L6j 在 内 ,都 非常 值得 推荐 。 

现在 ,已 经 有 数 十 种 期 刊 , 几 于 本 书 和 会 议 录 , 数 不 清 的 论文 都 是 有 关 决 策 理论 和 模式 识 
别 的 研究 的 。 这 个 数目 还 在 继续 增长 。 统 计 科学 [8] .机 器 学 习 L17j 和 神经 网 络 L9j 大 大 丰富 
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了 模式 识别 的 基础 。 其 他 一 些 如 计算 机 视觉 L7j、L19j] 和 语音 识别 L16j 的 成 功 也 很 大 程度 上 依 
束 于 模式 识别 的 发 展 。 认 知心 理学 、 认 知 科学 [13j ,心理 生物 学 [21]j 和 神经 科学 [11j 主 要 研究 
人 和 其 他 动物 是 如 何 进行 模式 识别 的 。 文 献 L14j 提 出 一 种 观点 , 它 将 人 类 认 知 过 程 中 的 一 切 
行为 ,包括 规则 和 逻辑 的 处 理 , 都 归结 为 模式 识别 。 模 式 识 别 技术 目前 已 出 现在 几乎 所 有 的 科 





学 和 工程 领域 。 
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2.1 引言 


贝 叶 斯 决策 论 是 解决 模式 分 类 问题 的 一 种 基本 统计 途径 。 其 出 发 点 是 利用 概率 的 不 同 分 类 决 
策 与 相应 的 决策 代价 之 间 的 定量 折 中 。 它 作 了 如 下 的 假设 , 即 决策 问题 可 以 用 概率 的 形式 来 描述 ， 
并 且 假 设 所 有 有 关 的 概率 结构 均 已 知 。 在 本 章 中 我 们 将 推导 该 理论 的 基本 内 容 ,并 表明 它 只 是 基 
于 常识 的 判决 过 程 的 一 种 形式 化 而 已 。 在 后 续 的 各 章 里 还 将 考虑 概率 结构 不 完全 知道 的 情况 。 

本 章 2. 2 节 将 给 出 抽象 的 一 般 贝 叶 斯 决策 理论 的 推导 。 但 在 此 之 前 ,我 们 首先 讨论 一 个 
具体 的 例子 。 重 新 考 虚 第 一 章 所 提出 的 假想 问题 :设计 一 个 能 分 开 两 类 鱼 ( 鲈 鱼 和 甸 鱼 ) 的 分 
类 器 。 假 设 观 察 者 发 现 要 准确 预测 下 一 条 正在 沿 传送 带 送 过 来 的 鱼 的 类 别 是 很 困难 的 事 , 因 
为 不 同类 别 的 鱼 出 现 的 序列 是 随机 的 。 用 决策 理论 的 术语 我 们 可 以 说 , 当 每 条 鱼 出 现时 其 类 
别处 于 两 种 可 能 的 状态 :有 可 能 是 鲈鱼 ,也 可 能 是 链 鱼 。 如 果 用 w 表示 类 别 状态 ,那么 当 w= 
w 时 是 鲈鱼 ,而 ow, 时 是 甸 鱼 。 由 于 类 别 状态 不 确定 ,可 以 假设 % 是 一 个 由 概率 来 描述 其 
特性 的 随机 变量 。 

假设 实际 捕 到 鲈鱼 和 人 能 鱼 的 数目 是 相等 的 ,那么 可 以 说 下 一 次 出 现 鲈鱼 和 出 现 链 鱼 的 可 
能 性 是 相等 的 。 更 一 般 的 情况 ,我 们 假定 下 一 条 鱼 是 鲈鱼 的 “ 先 验 概率 ”为 PCw), 而 下 一 条 人鱼 
是 甸 鱼 的 先 验 概率 为 PC(ws)。 由 于 假定 没有 其 他 类 别 的 鱼 , 所 以 有 PC) 十 P(ws) 王 1。 这些 
先 验 概率 反映 了 在 实际 的 鱼 没有 出 现 之 前 ,我 们 所 拥有 的 对 于 可 能 出 现 的 鱼 的 类 别 的 先 验 知 
识 。 比 如 , 它 可 能 取决 于 季节 的 不 同 或 捕 鱼 地 点 的 不 同 。 

假定 在 进行 实际 观察 之 前 ,要 求 我 们 必须 立即 对 下 次 将 出 现 的 鱼 的 类 别 做 判决 。 这 时 , 假 
定 任何 方式 的 错误 判决 都 会 付出 同样 的 代价 或 产生 同样 的 后 果 。 而 我 们 所 惟一 能 利用 的 信息 
只 有 先 验 概率 。 如 果 要 求 必须 用 如 此 少 的 信息 来 做 出 判断 ,那么 采用 下 述 判决 规则 是 合乎 逻 
辑 的 :如 果 PoP) WAY o, ,否则 , 判 为 or. 

如 果 我 们 仅 需 做 一 次 判决 ,那么 采用 这 种 判决 规则 还 是 合理 的 。 但 是 ,如 果 要 求 我 们 进行 
多 次 判决 ,那么 重复 使 用 这 种 规则 将 显得 有 些 奇怪 ,因为 毕竟 我 们 将 一 直 得 到 相同 的 结 采 , 虽 
然 我 们 知道 两 种 鱼 都 有 可 能 出 现 。 判 决 结 果 的 好 坏 完全 取决 于 先 验 概率 的 值 , 如 果 PC) e 
P(ows:) 大 很 多 ,那么 判决 wm 将 在 多 数 情况 下 是 对 的 ;如 果 Po) = PC) ,那么 我 们 将 只 有 50%% 
的 正确 率 。 一 般 情况 下 ,误差 概率 是 Peo) P(oz) 中 较 小 的 一 个 ,并 且 后 面 我 们 将 看 到 不 可 
能 有 另外 一 种 判决 规则 可 以 得 到 更 高 的 正确 率 。 

好 在 在 大 多 数 情况 下 ,我 们 不 会 只 用 如 此 少 的 信息 来 做 判断 。 例 如 ,在 上 面 的 例子 中 ,我 
们 可 以 利用 观察 到 的 光泽 度 指标 z 来 提高 分 类 器 性 能 。 不 同 的 鱼 将 产生 不 同 的 光泽 度 。 将 
其 表示 成 概率 形式 的 变量 ,假定 xz 是 一 个 连续 随机 变量 ,其 分 布 取 决 于 类 别 状 态 ,表示 成 


p(xz|w) 的 形式 9 ,这 就 是 “类 条 件 概 率 密度 ”(class-conditional probability density) 函数 , 即 类 


”我 们 通常 用 大 写 的 P(，) 表 示 概 率 分 布 函数 ,小 写 的 pO ORRE TE BK. 





贝 叶 斯 决策 论 m 17 


别 状态 为 时 的 的 概率 密度 咀 数 (有 了 时 也 称 为 状态 条 件 概率 密度 )。 于 是 p(x los 
(zlws) 间 的 区 别 就 表示 了 鲈鱼 与 驴 鱼 间 光 泽 度 的 区 别 2( 见 图 2-1)。 


-图 2-1 假定 的 类 条 件 概率 密度 
遇 数 图 ,显示 了 模式 处 于 类 别 w 时 
观测 某 个 特定 特征 值 x 的 概率 密 
E. MR xz 代表 鱼 的 长 度 ,那么 这 
两 条 曲线 可 描述 两 种 鱼 的 长 度 区 
别 。 概 率 了 泪 数 已 归 一 化 ,因此 每 条 
曲线 下 的 面积 为 1 





9 10 11 12 13 14 15 


假设 已 知 先 验 概率 P(ow; ) ,也 知道 类 条 件 概 率 密度 p(x|lw;), 且 ;==1,2。 并 且 假 设 通 过 观 
察 和 测量 ,我 们 发 现 一 条 鱼 的 光泽 度 为 zx。 此 测试 结果 将 如 何 影 响 我 们 所 关心 的 类 别 状 
态 一 一 也 就 是 鱼 的 类 别 呢 ? 首先 注意 到 处 于 类 别 w 并 有 具有 特征 值 z 的 模式 的 联合 概率 密度 
可 写成 两 种 形式 :如 (oz) 一 PCojilz)pCz) 一 六 (zwi)PCow)。 

重新 组 织 一 下 上 式 可 以 得 到 问题 的 答案 ,这 就 是 “ 贝 叶 斯 公式 ”: 


p(x|w;)P(@;) 


P(w,|x) = (1) 


p(x) 
在 两 类 问题 的 情况 下 
2 
p(x) = 》 p(x|aj)P(;) (2) 
j=l 
贝 叶 斯 公式 可 用 非 正 式 的 英语 表示 成 
posterior = likelihood x prior (3) 
evidence 


贝 叶 斯 公式 表明 ,通过 观测 xz 的 值 我 们 可 将 先 验 概率 P (wj) 转 换 为 后 验 概率 PC; |x) B 
假设 特征 值 xz 已 知 的 条 件 下 类 别 属于 w; 的 概率 。 我 们 称 palu) H w; RF xz MUR BR, 
或 简称 为 “ 似 然 ”(likelihood) ,表明 在 其 他 条 件 都 相等 的 情况 下 ,使 得 bp(zjw) 较 大 的 w 更 有 
可 能 是 真实 的 类 别 。 注 意 到 后 验 概率 主要 是 由 先 验 概率 和 似 然 函 数 的 乘积 所 决定 的 ,证 据 
(evidenc) AF p(x) 可 仅仅 看 成 是 一 个 标量 因子 ,以 保证 各 类 别 的 后 验 概率 总 和 为 1 从 而 满 
足 概率 条 件 。P(w;|z) 随 工 的 变化 如 图 2-2 所 示 , 此 时 Plow, )=2/3,PCo,)=1/3. 


O POR RUE BL BE BR 2(z|w) 应 该 写成 bz(zlw) ,以 表示 所 说 的 关于 随机 变量 X 的 某 个 特定 的 密度 函数 。 这 种 
更 详细 的 标记 使 得 pp.(，) 和 zy(。) 清 楚 地 代表 着 两 种 不 同 的 函数 ,而 当 写 成 p(z) 和 p(y) 时 就 会 模糊 不 清 。 由 于 
这 种 内 在 的 模糊 性 很 少 在 实际 中 出 现 , 我 们 采用 了 简单 的 标记 法 。 对 于 标记 不 是 很 确定 或 者 希望 温习 一 下 概率 论 
的 读者 可 以 参看 附录 的 A.4 节 。 
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图 2-2 在 先 验 概率 Plo )=2/3, P(ewilx) 
Pla) =1/3 及 图 2-1 给 出 的 类 条 
件 概 率 密度 的 条 件 下 的 后 验 概率 
图 。 此 情况 下 ,假定 一 个 模式 具有 
特征 值 z==14, 那 么 它 属于 w 类 的 
概率 约 为 0.08, 属 于 o 的 概率 约 
X 0.92, ERA x 处 的 后 验 概率 
之 和 为 1.0 





如 果 有 某 个 观测 值 zx 使 得 PCw|z) 比 PCo:1z) 大 ,我 们 很 自然 的 会 作出 真实 类 别 是 o 的 
判决 。 同 样 ,如 果 Ploy |x Plo lz) 大 ,那么 我 们 更 倾向 于 选择 ww 。 为 了 验证 此 判决 过 程 ， 
让 我 们 来 计算 一 下 做 出 某 次 判决 时 的 误差 概率 。 无 论 何 时 我 们 观测 某 一 特定 的 z， 


_f Pix) 如 果 判 定 cop 
P(error\x) = | Plex) 如 果 判 定 ol (4) 


显然 ,对 于 某 一 给 定 的 z, 我 们 可 以 在 最 小 化 误差 概率 的 情况 下 判决 , 如 果 
Pla, |r) >P@, (2) WA w ,否则 为 o 。 当 然 , 我 们 很 少 可 能 两 次 观测 到 严格 相同 的 zx。 这 
样 , 这 种 规则 可 以 将 平均 误差 概率 最 小 化 吗 ? 回答 是 肯定 的 ,因为 平均 误差 概率 可 表示 为 

P (error) = J P (error, x) dx = J P (error|x)p(x) dx (5) 
并 且 如 果 对 任意 z, 我 们 保证 PCerror|z) 尽 可 能 小 ,那么 此 积分 的 值 也 将 任意 的 小 ,由 此 我 们 
验证 了 下 列 最 小 化 误差 概率 条 件 下 的 贝 叶 斯 决策 规则 


如 果 Plod) > P(ozlz), 判 别 为 ol ; 否则 判别 为 oz (6) 
在 这 种 规则 下 , 式 (4) 可 写 为 
P(error|x) = min [P (wlx), P(@2|x)] (7) 


这 种 判决 规则 的 形式 强调 了 后 验 概 率 的 重要 性 。 利 用 式 (1) ,我 们 可 将 此 规则 变换 成 条 件 
概率 和 先 验 概率 的 形式 来 描述 。 首 先 ,注意 到 式 (1) 中 证 据 因 子 p(x) 对 于 做 出 某 种 判决 并 不 
重要 。 它 仅仅 是 一 标量 因子 ,表示 我 们 实际 测量 的 具有 特征 值 x 的 模式 的 出 现 频率 , CE 
式 (1) 中 保证 Plo, |z) 十 P(w|z) 一 1。 将 此 标量 因子 去 掉 , 可 以 得 到 以 下 完全 等 价 的 判决 规则 

如 果 p(x|o1)P(o1) > Prloz)P(o2), 判 别 为 ol; 否则 判别 为 oz (8) 

通过 考虑 一 些 特殊 情况 可 以 获得 对 问题 的 更 深入 的 洞察 。 如 果 对 某 个 x 有 p(xrlw)= 

palo) ,那么 说 明 在 某 次 特定 的 观测 之 后 并 没有 获得 新 信息 。 在 这 种 情况 下 ,判决 完全 取决 

于 先 验 概率 。 另 一 方面 ,如 果 PCw)= 二 PC(ws), 那 么 类 别 状态 等 可 能 出 现 ,这 种 情况 下 的 判决 

完全 取决 于 似 然 概 率 如 (zlw)。 通 常 ,以 上 两 个 因子 对 于 做 出 一 种 正确 的 判决 都 很 重要 , 贝 叶 
斯 决策 规则 将 它们 结合 起 来 以 获得 最 小 的 误差 概率 。 


2.2 贝 叶 斯 决策 论 一 一 连续 特征 
我 们 现在 将 刚刚 讨论 过 的 想法 进一步 正式 化 , 且 推 广 为 如 下 4 种 形式 ， 
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。 允许 使 用 多 于 一 个 的 特征 

© 允许 多 于 两 种 类 别 状态 的 情形 

。 人 允许 有 其 他 行为 而 不 是 仅仅 是 判定 类 别 

* 通过 引入 一 个 更 一 般 的 损失 函数 来 蔡 代 误差 概率 

这 些 推广 以 及 它们 所 带 来 的 符号 复杂 性 的 增加 将 不 会 掩盖 上 面 那个 简单 例子 所 阐明 的 基 
本 观点 。 人 允许 使 用 多 个 特征 值 仅仅 只 需 将 特征 标量 z 换 成 特征 向 量 x, 其 中 x 处 于 a 维 欧 几 
里 德 空间 R“ , 称 为 特征 空间 。 人 多 许多 于 两 类 的 情况 使 得 我 们 可 以 用 较 少 的 符号 获得 一 个 有 用 
的 推广 。 人 允许 有 除了 分 类 以 外 的 其 他 行为 主要 是 为 了 允许 存在 拒绝 决策 的 可 能 性 。 比 如 ,在 
后 验 概率 相 接 近 的 情况 下 可 以 拒绝 做 判决 ,如 果 因 此 所 付出 的 代价 不 太 大 的 话 。 正 式 的 说 , 损 
失 函 数 精确 的 阐述 了 每 种 行为 所 付出 的 代价 大 小 ,并 且 用 于 将 概率 转换 为 一 种 判决 。 代 价 函 
数 可 以 用 来 处 理 某 些 分 类 误差 较 其 他 分 类 误差 所 导致 的 代价 更 高 的 情况 ,尽管 我 们 经 常 讨论 
仅仅 是 最 简单 的 情况 之 一 , 即 ,所 有 分 类 错误 的 代价 相等 的 情况 。 以 上 作为 开场 白 ,下 面 我 们 
开始 做 更 加 正规 的 讨论 。 

令 {w，…owc} 表 示 有 限 的 “个 类 别 集 ,{w，…，,a} 表 示 有 限 的 a 种 可 能 采取 的 行为 集 , 风 
Pir PB (oilw) 描 述 类 别 状态 为 w 时 采取 行动 a; 的 风险 。 令 特征 向 量 x 表示 一 个 d 维 随机 
变量 。 令 p(x|w;) 表 示 x 的 状态 条 件 概率 密度 函数 一 一 在 真实 类 别 为 w 的 条 件 下 x 的 概率 密 
度 函 数 , 同 前 ,Plw) 表 示 类 别处 于 状态 o 时 的 先 验 概率 。 那 么 ,后 验 概率 Plw|x) 可 通过 由 
叶 斯 公式 以 p(x|w;) 计 算得 到 
p(Xlw)P(w)) 


P(w;|x) = p(x) 


(9) 
此 时 证 据 因 子 p(x) 已 知 为 


P(X) = 》 p(xlwj) P(w;) (10) 
j=l 
假定 我 们 观测 某 个 特定 模式 x 并 且 将 采取 行为 a; ,如 果真 实 的 类 别 状态 为 o ,通过 定义 我 
们 将 有 损失 Alala). ER Po 1x) 是 实际 类 别 状态 为 w; 时 的 概率 ,与 行为 a; 相关 联 的 损失 
就 为 


R(oilz) = 》 Alai lwj) P (wx) (11) 
j=! 

用 决策 理论 中 的 术语 来 表达 ,一 个 预期 的 损失 被 称 为 一 次 风险 ,RCa;|x) 称 为 条 件 风 险 。 
无 论 何 时 我 们 遇 到 某 种 特定 的 观测 模式 x, 我 们 可 以 通过 选择 最 小 化 条 件 风 险 的 行为 来 使 预 
期 的 损失 最 小 化 。 我 们 现在 来 说 明 此 贝 叶 斯 决策 过 程 实际 上 提供 了 一 个 总 风险 的 优化 过 程 。 
从 形式 上 讲 , 我 们 的 问题 是 找到 一 种 替代 PCw;) 的 决策 规则 以 最 小 化 总 风险 。 一 般 的 判 
决 规则 是 一 个 函数 a(x) , 它 告诉 我 们 通过 每 种 可 能 的 观测 该 采取 哪 种 行为 。 更 准确 的 讲 , 对 
于 每 个 x, 判决 函数 OO MET ofa... BAM R 是 与 某 一 给 定 的 判决 规则 相关 的 
预期 损失 。 既 然 RCa;|x) 是 和 行为 a; 有 关 的 条 件 风 险 , 且 决策 规则 指定 了 其 行为 , 则 总 风险 由 


R= J R(a(x)|x) p(x) dx (12) 


给 出 ,其 中 dx 是 我 们 对 一 个 d 维 变量 的 标记 形式 , 且 此 积分 是 在 整个 特征 空间 进行 的 。 显 
然 , 如 果 选 择 a(x) ,使 RC(a;|x) 对 每 个 x 尽 可 能 小 ,那么 总 风险 将 被 最 小 化 。 这 证 明了 如 下 所 
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述 的 贝 叶 斯 决策 规则 ;为 了 最 小 化 总 风险 ,对 所 有 i 二 1,… ,a 计算 条 件 风险 


R(ailx) = X A(ailwj)P (|x) (13) 
j=l 
并 且 选 择 行为 w 使 RCai|x) 最 小 化 >。 最 小 化 后 的 总 风险 值 称 为 贝 叶 斯 风险 , 记 为 R* , 它 是 
可 获得 的 最 优 的 结果 。 
两 类 分 类 问题 
我 们 来 考虑 将 上 述 结论 应 用 于 两 类 问题 时 的 结果 。 这 里 行为 al 对 应 于 类 别 判决 w ,行为 
a, 对 应 于 判决 %。。 为 了 简化 符号 ,以 和 一 XCai|w) 表 示 当 实际 类 别 为 o 时 误 判 为 w, 所 引起 
的 损失 。 如 果 我 们 写 出 式 (13? 所 给 出 的 条 件 风险 ,可 得 
R(a, |x) = Aq P(@1 |X) + A12P (21x) (14) 
R(a@2|x) = à21 P (wi |x) + A22 P(@2|x) (15) 


有 大 量 的 方式 来 表述 最 小 风险 决策 规则 ,每 种 都 有 自己 的 优点 。 基 本 规则 就 是 如 果 
Ra, |< Ra, | OMAA wy 。 用 后 验 概 率 的 形式 表述 为 ,如 果 
(X21 — Ait) P(@i |x) > (和 12 — A22) P(wa|x) (16) 
那么 判决 为 w. | 
通常 ,一 次 错误 判决 所 造成 的 损失 比 正确 判决 要 大 , 且 因 子 Ao — A 和 Ai» — Àz 都 是 正 的 。 
因此 实践 中 ,尽管 我 们 必须 通过 损失 函数 的 差别 对 后 验 概 率 作 调整 ,但 是 判决 通常 是 依据 最 可 
能 的 类 别 状 态 来 决定 的 。 
利用 贝 叶 斯 公式 ,我 们 可 用 先 验 概率 和 条 件 密度 来 表示 后 验 概率 ,这 种 等 价 规 则 为 ， 
如 果 
(X21 — Aut) p(Xl@1) P(@1) > (和 12 — A22) p(X]@2) P (2) (17) 
那么 判决 为 w ,否则 判决 为 Wo 。 
男 一 种 表示 方法 是 ,在 合理 假设 An > 的 条 件 下 ,如果 下 式 成 立 , 则 判决 为  。 
PXIwl) 、 A12 一 人 22 Pw) 
pla) X21 — àiu P(@1) 
这 种 判决 规则 的 形式 主要 依赖 于 x 的 概率 密度 。 我 们 可 以 考虑 p(x|w;) 作 为 w; 的 函数 ( 即 似 
然 函 数 ), 于 是 构成 “ 似 然 比 >pP(Cxlw)VpGxlws)。 因 此 贝 叶 斯 决策 规则 可 以 解释 成 如 果 似 然 比 
超过 某 个 不 依赖 观测 值 x 的 阔 值 ,那么 可 判决 为 ww 。 


2.3 最 小 误差 率 分 类 
在 分 类 问题 中 ,通常 每 种 类 别 状 态 都 与 c 类 中 的 一 种 有 关 , 且 行为 a; 通常 被 解释 为 类 别 状态 
被 判决 为 w。 如 果 采 取 行 为 w 而 实际 类 别 为 w ,那么 在 ;一 7 HAR FARBER. Ri), 


则 产生 误 判 。 如 果 要 避免 误 判 ,自然 要 寻找 一 种 判决 规则 使 误 判 概率 ( 即 误差 率 ) 最 小 化 。 
这 种 情况 下 的 损失 晴 数 就 是 所 谓 的 “对 称 损失 ”或 “0-1 损失 ”函数 ， 





(18) 


0 =j ， 
Masta) = | 1 ey i ,j=1,.:*,c (19) 


〇 ”注意 如 果 有 一 神 以 上 的 行为 都 可 以 使 Ra |x) 最 小 化 ,那么 关于 该 选择 哪 种 行为 并 不 重要 , 且 可 以 使 用 任何 方便 的 解决 方案 。 
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这 个 损失 孙 数 将 0 损失 赋 给 一 个 正确 的 判决 ,而 将 一 个 单位 损失 赋 给 任何 一 种 错误 判决 ,因此 


所 有 误 判 都 是 等 代价 的 ?。 与 这 个 损失 函数 对 应 的 风险 准确 的 说 就 是 平均 误差 概率 ,这 是 因 
为 条 件 风 险 为 


R(ai|x) = 》 A(aj|wj) P(@j|x) 


j=l 
= 》 P(w;lx) 
jx 
= 1 — Pl(wilxX) 
H Pla | OETA a 正确 的 条 件 概率 。 这 个 最 小 化 风险 的 贝 叶 斯 决策 规则 要 求 选择 一 种 能 使 
条 件 风 险 最 小 化 的 行为 。 因 此 ,为 了 最 小 化 平均 误差 概率 ,我 们 需要 选取 i 使 得 后 验 概率 
P (wi;|x) 最 大 , 换 句 话说 ,基于 最 小 化 误差 概率 ,有 | 
对 任 给 j At, MR P(w,|x) > Poix), WAHHH w; (21) 


RFA) MAMA. RNR, 表示 在 其 中 决定 w; 的 输入 空间 的 区 域 。 

在 图 2-2 中 我 们 看 到 了 一 些 类 条 件 概率 密度 以 及 一 些 后 验 概率 ,图 2-3 显示 相同 条 件 下 
的 似 然 比 p(xziw)/plzlws)。 通 常 ,这 个 比值 可 从 0 到 无 穷 大 。 图 中 标记 的 阐 值 9. 来 自 同样 
的 先 验 概率 ,但 引入 了 “0-1 损失 ”函数 。 注 意 ,这 导致 与 图 2-2 中 相同 的 判决 边界 。 如 果 我 们 
对 模式 属于 ws 却 误 判 为 o 的 惩罚 大 于 模式 属于 o 却 误 判 为 w 的 情况 ( 即 Xzi >a). BAR 
式 \18) 将 得 出 图 中 所 标的 国 值 &。 注 意 到 可 以 将 模式 判决 为 w 的 z 的 取 值 范围 变 小 了 . 
"2.3.1 极 小 化 极 大 准则 

有 时 我 们 必须 设计 在 整个 先 验 概率 范围 上 都 能 很 好 的 进行 操作 的 分 类 器 。 比 如 ,在 我 们 
的 鱼 分 类 问题 中 可 以 设想 尽管 每 种 鱼 的 光泽 和 宽度 等 物理 属性 恒定 不 变 , 然 而 先 验 概率 可 能 
变化 范围 较 大 ,并 且 以 一 种 不 确定 的 方式 出 现 。 或 者 ,我们 希望 在 先 验 概 率 不 知道 的 情况 下 使 
用 此 分 类 玫 ,那么 一 种 合理 的 设计 分 类 器 的 方法 就 是 使 先 验 概率 取 任 何 一 种 值 时 所 引起 的 总 
风险 的 最 坏 的 情况 尽 可 能 小 ,也 就 是 说 ,最 小 化 最 大 可 能 的 总 风险 。 

为 了 理解 这 一 点 ,我们 以 及! 表示 分 类 器 判 为 o 时 的 特征 空间 中 的 区 域 (尽管 我 们 并 不 确 
切 知 道 ) ,同样 的 有 RR: 和 w ,于 是 将 式 (12) 的 总 风险 用 条 件 风险 的 形式 表示 为 ， 


(20) 


R= J [A11P(@1) palw) + àn P(w) p(x|w2)] dx 


Ry 
(22) 


+ J [Az P(@) p(xlw)) + A22 P(@2) p(x|w2)] dx 
Ra . 


我 们 利用 条 件 Plo) = 1— Plow) 以 及 | p(x | w dx = 1— | px |o dx 来 重 写 风险 公 
' Ry Ra . 


AWF: 


O ”我 们 发 现 其 他 损失 函数 ,如 二 次 型 或 线性 差分 可 能 对 于 回归 任务 更 有 用 处 。 因 为 在 其 中 ,各 个 预测 值 有 一 个 自然 
的 “ 序 " 关 系 , 因 此 可 以 明确 的 惩罚 某 些 比 其 他 预测 值 “更 加 错误 ”的 预测 值 。 
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图 2-3 图 2-1 所 示 的 分 布 的 似 然 比 pila) 
plaia)/pla|e). WRI A—S 0-1 p(x|er) 
损失 或 分 类 损失 ,那么 判决 边界 将 由 效 
值 & 决定 ;而 如 果 损 失 函 数 对 将 模式 
wo WHA w WHAT RK i A 
CBM er >A) ,将 得 到 较 大 的 阅 值 ,使 
IFR: 变 小 





一 Rm. 极 小 化 极 大 风险 


R(P(w1)) 一 和 22 + (Àn — àn) J p(x|w2) dx 
Ry 


+ P{@;) | (Ait 一 入 22) + (Aa 一 an f pelon dx 一 (和 12 一 han) | plan) dx 
Rə Ry 


= 0 对 于 极 小 化 极 大 求解 
(23) 
这 个 等 式 表明 一 旦 判决 边界 确定 之 后 ( 即 及 ! MR: 被 确定 ), 总 风险 与 Plw ) 成 线性 关系 。 
如 果 我 们 能 找到 一 个 边界 使 比例 常量 为 0, 那么 风险 将 与 先 验 概 率 相 独立 。 以 上 即 是 “ 极 小 化 
极 大 (minimax) 求 解 ”, 极 小 化 极 大 风险 Rj 可 从 式 (23) 得 出 : 


Rim = A22 + (Àn — A22) J p(X|w2) dx 
Ry 


= 入 11 + (Art =A) f phon dx | (24) 
Ra 

图 2-4 Shon TRA. fe RSET E E AK HS ES RRA 
给 出 了 极 小 化 极 大 决策 结果 ,因此 极 小 化 极 大 风险 值 Rin SF FBR A N RARE. mE 
找 极 小 化 极 大 风险 的 决策 边界 可 能 会 比较 困难 ,尤其 是 当 分 布 形 式 比 较 复 杂 的 时 候 。 然 而 ,在 
某 些 情 尝 下 边界 可 以 解析 的 确定 (习题 4) 。 

极 小 化 极 大 决策 准则 在 “ 博 奕 论 ”(game theory) 中 的 作用 比 在 模式 识别 中 的 更 大 。 在 博 
奕 论 中 ,你 会 有 一 个 对 手 以 对 你 最 不 利 的 方式 与 你 竞争 。 因 此 ,对 于 你 来 说 ,如 何 采 取 一 种 行 
为 (如 做 出 一 种 分 类 ) 使 你 所 付 的 代价 (由 你 对 手 的 对 策 行为 所 产生 的 ) 最 小 化 将 显得 十 分 有 意 
Ma 
"2.3.2 Neyman-Pearson 准则 

在 某 些 问题 中 ,我 们 希望 最 小 化 在 某 个 约束 条 件 下 的 总 风险 ,比如 ,我 们 可 能 要 对 某 个 特 


定 值 ;, 最 小 化 在 约束 条 件 | Ra | x)dx < 常数 下 的 总 风险 。 当 资源 有 限 , 因 而 要 求 我 们 的 革 


个 特定 的 行为 w ,或 者 对 一 个 特定 的 类 别 状态 o 中 做 出 误 判 的 次 数 不 允 许 超过 某 个 限定 值 
时 ,将 产生 此 约束 条 件 。 比 如 在 前 面 那个 鱼 厂 的 例子 中 ,可 能 会 有 某 种 生产 规定 ;要求 我 们 将 
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P(error) 





. —> P(w) 
0 2 4 6 8 l 


图 2-4 ALP URC BB AY Be Be Se aN T EEA A A) PS EA Rh Bp te RE ARAE P ) 
的 函数 曲线 。 对 于 每 一 个 先 验 概率 值 ( 如 P(m )=0. 25) 都 有 一 个 相关 的 最 优 决策 边界 以 及 相应 的 贝 
叶 斯 误差 率 , 对 于 任何 这 样 的 (固定 的 ) 边 界 , 如 果 改 变 先 验 概率 值 , 那 么 误差 概率 将 作为 Pom ) 的 线 
性 函数 (图 中 虚线 所 示 ) 也 随 之 改变 。 此 误差 的 最 大 值 出 现在 先 验 值 的 极 值 处 ,此 图 中 为 P(w ) 一 1。 
为 了 最 小 化 最 大 误差 ,我 们 将 为 最 大 的 贝 叶 斯 误差 (这 里 是 PC ) 二 0. 6) 设 计 判 决 边界 ,使 得 该 误差 
将 不 会 随 着 先 验 概率 的 改变 而 改变 ,如 图 中 红色 水 平 线 所 示 


鲈鱼 误 判 成 刍 鱼 的 误差 率 不 得 超过 1%, 那 么 就 必须 寻找 一 种 判决 方式 以 减少 在 此 条 件 约 束 下 
将 一 条 钙 鱼 判 成 鲈鱼 的 可 能 性 。 

通常 我 们 通过 调节 判决 边界 的 数值 来 满足 此 Neyman-Pearson 准则 。 但 是 ,对 于 高 斯 分 
布 或 某 些 其 他 分 布 形式 ,Neyman-Pearson 准则 的 解 可 通过 解析 方法 求 得 (习题 6 和 7) ,我 们 
会 在 2. 8. 3 节 的 执行 特性 中 再 次 提 到 Neyman-Pearson 准则 。 


2.4 SRE AD BARA A 


2.4.1 多 类 情况 
有 很 多 种 方式 来 表述 模式 分 类 器 ,其 中 用 的 最 多 的 是 一 种 判别 星 数 g; (XxX) ,i 二 1,…,c 的 
形式 ,如 果 对 于 所 有 的 7 天 zi 有 


8i(X) > gj;(X) (25) 


则 此 分 类 器 将 这 个 特征 向 量 x 判 为 ww。 因此 ,此 分 类 器 可 视 为 一 个 计算 co PH Al A PR E 
与 最 大 判别 值 对 应 的 类 别 的 网 络 或 机 器 。 一 种 分 类 器 的 网 络 结构 如 图 2-5 所 示 。 


图 2-5 一 个 包含 d SA c 行动 

个 判别 函数 g; (x) 的 一 般 的 统 
计 模 式 分 类 器 的 体系 结构 。 接 
PK BY Ae BR BD et a aE GB HS FA Fl 
函数 值 最 大 ,并 相应 的 对 输入 
作 分 类 。 箭 头 表示 信息 流 的 方 
向 , 当 信息 流动 的 方向 比较 明 
显 时 箭头 可 以 省 略 
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一 个 贝 叶 斯 分 类 器 可 以 简单 自然 的 表示 成 这 种 方式 。 在 具有 一 般 风 险 的 情况 下 ,我 们 让 
gi(X) 二 一 R(ai1%) ,这 是 由 于 最 大 的 判别 函数 是 与 最 小 的 条 件 风 险 相 对 应 的 。 在 最 小 误差 概率 情况 
下 ,我 们 可 进一步 简化 问题 ,让 g: O= Plo, |x) ,此 时 最 大 判别 函数 与 最 大 后 验 概率 相对 应 。 

显然 ,判别 函数 的 选择 并 不 是 惟一 的 ,我 们 可 以 将 所 有 的 判别 函数 乘 上 相同 的 正常 数 或 者 
加 上 一 个 相同 的 常量 而 不 影响 其 判决 结果 ,更 一 般 的 情况 下 ,如 果 我 们 将 每 一 个 g;(x) 替 换 成 
Fg OO) 其 中 /是 一 个 单调 递增 函数 ,分 类 结果 不 变 。 此 方法 可 以 简化 分 析 和 计算 。 特 
别 , 对 于 最 小 误差 率 分 类 ,选择 下 列 任何 一 种 函数 都 可 得 到 相同 的 分 类 结果 ,但 是 其 中 一 些 比 
Fy — HG fal BAS T: 


ao Plant = ee ee 


和 p(xle;) Pwj) E 
isi 
gi (xX) = p(X|wi) P (wi) (27) 
gi (x) = In p(x|a;) + In P (wi) (28) 


其 中 ,ln 表示 自然 对 数 。 

尽管 判别 晴 数 可 写成 各 种 不 同 的 形式 ,但 是 判决 规则 是 相同 的 。 每 种 判决 规则 均 是 将 特 

征 空间 分 成 c 个 判决 区 域 ,RR1，… ,Rc。 如 果 对 于 所 有 j 关 i 有 gi(x) 之 g;(x) ,那么 x BFR, 

判决 规则 要 求 我 们 将 x 分 给 w;。 此 区 域 由 判决 边界 来 分 割 , 其 判决 边界 即 判 决 空间 中 使 判别 
盟 数 值 最 大 的 曲面 (图 2-6)。 

图 2-6 在 这 个 二 维 的 两 类 问题 的 分 类 器 

中 ,概率 密度 为 高 斯 分 布 ,判决 边界 由 两 个 

双 曲 线 构成 ,因此 判决 区 域 见 。 并 非 是 简单 

的 连通 的 。 椭 圆 轮廓 线 标记 出 1/e HOW 







率 密度 的 峰值 
aN 
We : 
A Swan / a 
2.4.2 ”两 类 情况 


尽管 两 类 问题 是 多 类 问题 的 一 个 特例 ,但 通常 它们 都 被 专门 拿 出 来 研究 。 事 实 上 ,将 模式 
划分 为 只 有 两 类 模式 的 分 类 器 有 一 个 专门 的 名 字 一 一 二 分 分 类 器 (dichotomizer)。 它 一 般 
并 非 使 用 两 个 判别 函数 g 和 g; BWR g >g: 则 将 xx 分 给 四 ,取而代之 的 是 定义 一 个 简单 
的 判别 函数 


g(x) = 91(x) 一 82(X) (29) 


O ”处理 多 于 两 类 的 分 类 器 称 为 和 多重 分 类 器 (polychotomizer) , 
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且 使 用 下 列 判决 规则 :如 果 oS, MAA w ;否则 判 为 @, 。 





因此 ,一 个 二 分 分 类 器 可 看 成 是 计算 一 个 简单 判别 函数 g(x) 并 根据 结果 的 符号 对 x 进行 
分 类 的 机 器 。 在 所 有 的 最 小 误差 率 判 别 肾 数 的 书写 形式 中 ,以 下 两 个 尤其 方便 : 
g(x) = P (wlx) 一 P (alx) (30) 
_ P(xle1) P(w) 
20 = In ao Po (31) 
2.5 EREE 


一 个 贝 叶 斯 分 类 器 的 结构 可 由 条 件 概率 密度 p(x|w) 和 先 验 概率 P(w:) 来 决定 。 在 所 研 
究 的 各 种 密度 酒 数 中 ,最 受 青睐 的 是 多 元 正 态 函数 (或 称 为 高 斯 密度 畏 数 ) ,在 很 大 程度 上 这 种 
青睐 是 源 于 它 分 析 的 简易 性 。 并 且 ,此 多 元 正 态 密度 在 某 些 重要 的 场合 中 是 一 个 非常 合适 的 
模型 ,也 就 是 说 , 某 个 给 定 的 类 o 的 特征 向 量 x 的 取 值 是 连续 的 , 且 是 某 个 典型 的 或 原型 向 量 
纪 受 噪声 污染 后 的 值 。 在 这 一 节 里 我 们 将 简单 地 说 明 多 元 正 态 密度 ,并 将 注意 力 集中 在 分 类 
问题 中 最 有 意义 的 部 分 。 

首先 ,回想 标量 函数 f(xz) 的 数学 期 望 的 定义 ,对 于 某 个 密度 分 布 p(xz) 其 定义 如 下 : 


ELf(x)] = [Fore ax (32) 


如 果 有 一 些 集合 DD 中 的 具有 某 种 离散 分 布 的 样本 ,我 们 须 将 所 有 的 样本 加 起 来 如 下 ， 
EL[f (x)] = > F@)PO) (33) 


xED 


其 中 PE z 处 的 概率 分 布 ,我 们 经 常 需要 通过 这 些 等 式 以 及 在 高 维 空间 中 定义 的 类 似 等 
式 来 计算 期 望 值 ( 见 附录 A. 4.2、A.4.5 及 A.4.9)9， 
2.5.1 单 变量 密度 函数 

我 们 从 连续 的 单 变 量 正 态 或 高 斯 密度 函数 开始 ， 


ol | -11z-wY 
p(x) = LT “| 5 ( = ) | (34) 
由 上 式 可 得 x 的 期 望 值 (均值 ,由 整个 特征 空间 计算 得 出 ) 为 | 





oo 


u = E[x] = firo dx (35) 
此 时 的 方差 为 
o? = El(x —p)*] = fe — u p(x) dx (36) 


O ”我 们 会 经 常 使 用 某 种 宽松 的 工程 术语 , 且 将 单个 的 点 作为 “样本 ”。 但 是 ,统计 学 家 通常 将 基 个 点 集 作 为 样本 ,他 们 
讨论 “大 小 为 的 样本 ”。 在 上 下 文中 ,这 种 用 法 很 少 产生 模糊 性 。 
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26 图 £2 





单 变量 正 态 密度 函数 完全 由 两 个 参数 决定 :均值 wk 和 方差 c: 。 为 了 简化 起 见 ,我 们 通常 将 
式 (34) 写 为 p(X)~N(4,0) ,表示 工 服 从 均值 为 A 方差 为 o? 的 正 态 分 布 。 服 从 正 态 分 布 的 样 
本 聚集 于 均值 附近 ,其 散布 程度 与 标准 差 o。 有关 (图 2-7) 。 

正 态 分 布 与 粹 之 间 有 着 密切 的 关系 ,我 们 会 在 附录 A.7 节 中 更 详细 的 讨论 粹 这 一 概念 ， 
这 里 我 们 仪 仅 讨 论 一 种 分 布 的 炉 由 下 式 给 出 


H(p(x)) = - f pw In p(x) dx (37) 


单位 为 奈 特 ,如 果 换 成 log, ALY OR. ME — TE fh 0 R RM — Bb a BL 
选取 的 样本 点 值 的 不 确定 性 。 可 以 证 明正 态 分 布 在 所 有 具有 给 定 的 均值 和 方差 的 分 布 中 具有 
FAM (JR 20), FFA ,如 中 心 极限 定理 所 述 ,大量 的 小 的 、 独 立 的 随机 分 布 的 总 和 等 效 为 一 
高 斯 分 布 ( 上 机 练习 5) 。 由 于 所 有 模式 一 一 从 鱼 到 手写 字符 、 到 某 些 语音 一 一 都 可 看 成 是 由 
大 量 随机 过 程 所 组 成 的 某 个 理想 的 或 原型 模式 ,对 于 实际 的 概率 分 布 而 言 高 斯 分 布 通常 是 一 
种 好 的 模型 。 


图 2-7 单 变量 正 态 分 布 大 约 有 95%% 的 区 域 在 
lz—#| S20 范围 内 ,如 图 所 示 。 此 分 布 的 峰值 为 
pl(1WW=1/vV2ro 





2.5.2 多 元 密度 函数 
一 般 的 a 维 多 元 正 态 密度 的 形式 如 下 ， 


1 1 bé] 
p(x) = (Ony42 XP | -ie — py R(x - 由 | (38) 


其 中 x 是 一 个 a 维 列 向 量 ,& 是 4 维 均值 向 量 , 允 是 dXd 的 协 方差 矩阵 ,| 瑟 | 和 习 -! 分 别 是 其 
行列 式 的 值 和 逆 ,(x 一 4)' 是 (x 一 1) 的 转 置 9 。 注 意 到 内 积 的 形式 为 ， 


a'b = Sab (39) 
上 式 常 称 为 点 积 。 为 简化 起 见 ,我 们 将 式 (38) 写 成 pOO~NUED. 
形式 上 ,有 
p= Elx] = J xp dx (40) 
及 
3 = El(x— p(x — p)'] = J (x — pC — m'p) dx (41) 


〇 ”通过 应 用 线性 代数 的 概念 与 符号 ,可 以 大 大 地 简化 多 元 正 态 密度 的 数学 表达 式 。 对 我 们 所 使 用 的 符号 感到 疑惑 或 
希望 复习 一 下 线性 代数 的 读者 ,可 以 参考 附录 A. 2, 
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其 中 某 个 向 量 或 矩阵 的 均值 通过 其 元 素 的 均值 获得 。 换 句 话说 ,如 果 x, 是 x IAT, 
是 严 的 第 ;个 元 素 ,o ER 六 个 元 素 , 那 么 
Hi = Elx;] (42) 
及 
0i; = EEx ~ Wi) xj — ui) (43) 


协 方差 矩阵 互通 常 是 对 称 的 并 且 半 正定 的 。 我 们 将 严格 限定 马 是 正定 的 ,使 得 王 的 行列 
式 是 一 个 正 数 ”。 对 角 线 元 素 0; 是 相应 的 xz; 的 方差 (也 就 是 中 ), 且 非 对 角 线 元 素 m Bx, Az, 
的 协 方差 。 比 如 ,对 于 鱼 的 长 度 和 重量 特征 我 们 将 得 到 一 个 正定 的 协 方差 阵 。 如 果 zx 和 统 
计 独 立 , 则 o; =0, 如 果 所 有 的 非 对 角 线 元 素 都 为 0, 则 p(x) 变 成 了 x 中 各 元 素 的 单 变量 正 态 
密度 函数 的 内 积 。 

服从 正 态 分 布 的 随机 变量 的 线性 组 合 ,不管 这 些 随 机 变量 是 独立 还 是 非 独立 的 ,也 是 一 个 
正 态 分 布 。 特 别 是 ,如 果 p(x)~N(H,E),A 是 一 dx 的 矩阵 上 且 y=A'cx 是 一 k 维 向 量 ,那么 
ply) ~N(A'H, ATA) ,如 图 2-8 所 示 。 在 k=1 且 A 是 一 单位 向 量 a 的 特殊 情况 下 ,y 一 wx 是 
一 标量 ,表示 x 到 沿 a 方向 的 一 条 直线 的 投影 ;此 种 情况 下 ,a'Za x 向 a 投影 的 方差 。 那 么 
通常 ,对 于 协 方差 矩阵 的 知识 允许 我 们 可 以 计算 数据 沿 任何 方向 或 任意 子 空间 的 分 散 程度 。 

图 2-8 ”特征 空间 中 的 一 个 线性 变换 将 一 。 

个 任意 正 态 分 布 变换 成 另 一 个 正 态 分 布 。 

一 个 变换 , A, 将 原 分 布 变 成 分 布 NAH, 

A'ZA); 另 一 个 线性 变换 , 即 由 向 量 a 决定 

的 向 某 条 直线 的 投影 P, 产 生 沿 该 直线 方 

向 的 N(po ) 分 布 。 尽 管 这 些 变换 产生 一 

个 不 同 空间 中 的 分 布 ,我 们 还 是 将 它们 显 

WEM r-r: 空间 中 。 一 种 白化 变换 , A, ， 

将 产生 一 个 圆周 对 称 的 高 斯 分 布 






NA'sH d ) 






MNA LA'EA) 


0 
有 时 将 一 个 任意 的 多 元 正 态 分 布 的 坐标 转换 到 一 个 球 坐 标 系 会 比较 方便 处 理 , 比 如 , 某 个 
分 布 的 协 方差 矩阵 与 单位 矩阵 工 成 比例 。 如 果 定 义 矩 阵 中 ,其 列 向 量 是 三 的 正 交 本 征 向 量 , 及 
A 为 与 相应 本 征 值 对 应 的 对 角 和 矩阵 ,那么 变换 
A, = BA!” (44) 
将 使 变换 后 的 分 布 的 协 方差 矩阵 成 为 单位 阵 。 在 信和 号 处 理 中 ,由 于 此 变换 使 转换 后 的 分 布 的 
本 征 向 量 谱 具 有 均匀 性 ,因此 A,, 也 被 称 为 白化 变换 。 


〇 ”如 果 样 本 向 量 是 从 一 个 线性 子 空间 中 抽取 的 ,那么 | 允 |=0 A p(x) 是 退化 的 。 比 如 , 当 x 的 一 个 元 素 方 差 为 0, 或 
者 当 x 的 两 个 元 素 相 等 或 成 倍数 关系 时 ,将 出 现 以 上 现象 。 








28 图 第 2 章 


多 元 正 态 密 度 完 全 由 d+d(d+1)/2 个 参数 一 一 均值 向 量 及 的 元 素 及 协 方差 矩阵 王 中 的 
独立 元 素 一 一 来 决定 。 从 一 正 态 分 布 中 所 抽取 的 样本 点 趋向 于 落 在 一 个 单一 的 云 团 或 聚 类 中 
(图 2-9); 案 类 中 心 由 均值 向 量 决定 , 聚 类 的 形状 由 协 方 差 和 矩阵 决定 。 由 式 (38) 可 知 ,由 于 其 
二 次 型 (x 一 上 4)' 王 “(x 一 所) 为 一 常量 ,因此 等 密度 的 点 的 轨迹 为 一 超 椭 球 体 。 这 些 超 椭 球体 的 
ERA UMA CH 四 表示 ) 给 出 ,本 征 值 (由 人 A 表示 ) 决 定 这 些 轴 的 长 度 。 下 式 

r= (xX— py (x -— p) (45) 
有 时 被 称 为 人 Xx 到 的 平方 Mahalanobis 距离 (或 称 为 马 氏 距离 )。 因 此 ,等 密度 分 布 的 边界 是 一 


些 到 的 恒定 马 氏 距离 的 超 椭 球 体 , 且 这 些 超 椭 球 体 的 体积 决定 了 均值 附近 的 样本 的 离散 程度 。 
可 以 证 明 ( 习 题 15 及 16) 与 一 Mahalanobis 距离 r 对 应 的 超 椭 球体 的 体积 为 
V = ValZl rd (46) 
其 中 V, 是 一 个 4d 维 单位 超 球体 的 体积 ， 
nil jid) d 为 偶数 
aE) yapanda 4 为 奇数 ao 
因此 ,对 于 一 给 定 维 数 ,样本 的 离散 程度 直接 随 | 互 | 而 变化 (习题 17) 。 


图 2-9 ”从 一 个 以 均值 上 为 中 心 的 云 团 内 的 二 维 高 斯 ~ 
分 布 中 取出 的 样本 。 椭 圆 显示 了 等 概率 密度 的 高 斯 分 
布 轨迹 





2.6 ESR HA Fl Dl A k 


在 2.4. 1 PPRNSAMR RAB SSR t EA pa RR GB 
gi (x) = In pjo) + In P(@;) (48) 


如 果 密 度 函 数 p(x| w;) FE B 70 TE AS SP h Ue ETA RR A AS a, WR paloa) ~ 
NCH: E) ,那么 在 这 种 情况 下 从 式 (38) 可 得 


gi(X) = -> — mE (x — wi) 一 Z In 2x 一 5 In |%;| + In P (wi) (49) 


我 们 在 一 些 特殊 情况 下 来 讨论 这 个 判别 函数 及 其 分 类 结果 。 
2.6.1 情况 1:£&=0 1 

这 种 最 简单 的 情形 发 生 在 各 特征 统计 独立 ,并且 每 个 特征 具有 相同 的 方 关 vc 时。 在 这 种 
情况 下 的 协 方差 矩阵 是 对 角 阵 ,仅仅 是 与 单位 阵 工 的 乘积 。 几 何 上 , 它 与 样本 落 于 相等 大 
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小 的 超 球 体 聚 类 中 的 情况 相对 应 ,第 i 类 的 聚 类 以 均值 向 量 &; AP. DARA 


阵 的 计算 尤其 简单 :| 互 ;| 王 cz 及 了 了 -一 (1/o )/I1。 既 然 式 (49) 中 的 | 琶 | 和 (C4q/2)1ln2r 都 与 i 
无 关 , 因 此 它们 是 无 关 紧 要 的 附加 常量 ,可 以 被 省 略 。 因 此 我 们 得 到 简单 的 判别 函数 


Ix — mill? 


gi(x) = - EE + In P(o) | (50) 
其 中 |, || 是 欧 几 里 德 范 数 ,也 就 是 
IIx — aill? = (x — pY (x — pi) (51) 


如 采 先 验 概率 不 等 ,那么 式 (50) 表 明 平 方 距离 ex 一 上 上 * 必须 通过 方差 于 进行 归 一 化 且 
通过 增加 InP(w;) 进 行 修正 ;因此 ,如 果 &x 与 两 个 不 同 的 均值 向 量 的 距离 相等 ,那么 最 优 判 决 
将 偏 癌 于 先 验 概率 较 大 的 类 别 。 

无 论 先 验 概率 是 否 相 等 ,实际 上 没有 必要 计算 距离 。 将 二 次 型 (x 一 上 )'(x 一 4) 展 开 得 


1 
gi(x) = ~ arg Xx — 2p ix + pi pi] + In P(e:) (52) 


它 看 上 去 像 是 x N—-t— KBR (AE. xx 对 于 所 有 i 是 相等 的 ,使 得 它 成 为 一 个 可 省 
略 的 附加 常量 ,因此 ,我 们 得 到 了 等 价 的 线性 判别 阻 数 ， 


gi (x) = WiX + wio (53) 
其 中 
Wi = 二 (54) 
且 
Win = Sula + In P(@;) (55) 


我 们 称 wa 为 第 i 个 方向 的 阔 值 或 偏 置 。 

使 用 线性 判别 函数 的 分 类 器 称 为 “线性 机 器 ”(linear machine)。 这 类 分 类 器 有 许多 有 趣 
的 理论 性 质 , 其 中 一 些 将 在 第 5 章 中 详细 讨论 。 此 处 我 们 只 需 注意 到 一 个 线性 机 器 的 判定 面 
是 一 些 超 平面 ,这 些 超 平面 是 由 两 类 问题 中 可 获得 最 大 后 验 概率 的 线性 方程 g; (x) = g; (x) 来 
确定 的 。 在 以 上 的 具体 例子 中 ,此 方程 可 写成 


w' (x — Xo) = 0 l (56) 
其 中 
W= Mi — BP; (57) 
且 
1 o? P (wi) | 
= = + Mj) — — |n —— (Mi — h; (58 
Xo (从 Hj). lm ai Po” Hj) (58) 


此 方程 定义 了 一 个 通过 点 % 且 与 向 量 w 正 交 的 超 平面 。 由 于 w= H BR: SR 分 开 的 
超 平面 与 两 中 心 点 的 连 线 垂直 。 如 果 P(w) 王 PCw), 则 式 (58) 右 边 的 第 二 项 为 零 , 因 此 点 xo 
位 于 两 中 心 的 中 点 , 且 超 平面 垂直 平分 两 中 心 的 连 线 ( 如 图 2-11)。 如 果 P(ow;) 天 PCwi) ,点 3 
将 远离 可 能 的 均值 。 但 是 ,注意 如 果 相对 于 平方 距离 外 em, 上 较 小 ,那么 判决 边界 的 位 
置 相对 于 确切 的 先 验 概率 值 并 不 敏感 。 
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如 果 所 有 c 类 的 先 验 概率 Plw;) 相 等 ,那么 InP(ow;) 项 就 成 了 另 一 可 省 略 的 附加 常量 。 此 
种 情况 下 ,最 优 判决 规 则 可 简单 陈述 如 下 :为 将 某 特征 向 量 x 归 类 ,通过 测量 每 一 xx 到 < 个 均 
值 向 量 中 的 每 一 个 的 欧 氏 距离 ,并 将 x 归 为 离 它 最 近 的 那 一 类 中 。 这 样 一 个 分 类 器 被 称 为 一 
个 "最 小 距离 分 类 事 "。 如 果 每 一 个 均值 向 量 被 看 成 是 其 所 属 模式 类 的 一 个 理想 原型 或 模板 ， 
那么 这 本 质 上 是 一 个 模板 匹配 技术 (图 2-10), 这 种 技术 将 在 第 4 章 的 最 近邻 算法 中 再 次 讨 


W 











R, R, 
Plon)=5 P@2)=5 


图 2-10 ”如 果 两 种 分 布 的 协 方差 矩阵 相等 并 且 与 单位 阵 成 比例 ,那么 它们 呈 d 维 球状 分 布 , 其 判 
决 边 界 是 一 个 4 一 1 维 归 一 化 超 平面 ,垂直 于 两 个 中 心 的 连 线 。 在 这 些 一 维 、 二 维 及 三 维 的 例子 
中 ,是 假设 在 Plo) = Plo WR FRE p(xlw;) 和 判决 边界 的 ,在 三 维 情 况 下 ,一 个 李 格 平面 
HER, HR, 分开 


2.6.2 情况 2:5,=2 

第 二 种 简单 的 情况 是 所 有 类 的 协 方差 矩阵 都 相等 ,但 各 自 的 均值 向 量 是 任意 的 。 几 何 上 ， 
这 种 情况 对 应 于 样本 落 在 相同 大 小 和 相同 形状 的 超 椭 球 体 聚 类 中 ,第 ;类 的 聚 类 中 心 在 向 量 
KL; 附近 。 由 于 式 (49) 中 | | 和 (d/2)1In2x 两 项 与 ; 无关, 它们 可 作为 多 余 的 附加 常量 而 被 省 
略 。 这 种 简化 可 推出 判别 函数 为 


l 
gi (X) = -3 — By EX ~ p) + In P(w) (59) 


如 果 所 有 < 类别 的 先 验 概率 PC(w;) 都 相同 ,那么 InP(w,) 项 可 被 省 略 。 在 这 种 情况 下 ,最 
优 判 决 规则 可 再 次 简化 为 :为 将 向 量 x 归 类 ,计算 从 x 到 每 一 个 c 均值 向 量 的 平方 马 氏 距离 
XB YEO BK) ,将 x 归于 离 它 最 近 的 均值 所 属 的 类 。 和 前 面 一 样 ,不 相等 的 先 验 概 率 会 
将 判定 面 移 向 远离 先 验 概率 较 大 的 类 的 一 边 。 

RE UR Cx wD (x 一 kt;) 展 开 可 得 一 与 i 无 关 的 二 次 项 x 王 'x, 将 式 (59) 中 的 此 项 
去 掉 后 可 再 次 得 到 线性 判别 函数 :. 


gi(X) = WixX + wio (60) 
其 中 
wi = |p; (61) 
且 
] 
wio = =z; È p + In P(@;) (62) 


由 于 判别 函数 是 线性 的 ,判决 边界 同样 是 超 平面 (图 2-10) WRR: AR; 近邻 , 则 它们 之 
间 的 边界 面 的 方程 为 
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P(x|@,) 5 





图 2-11 随 着 先 验 概率 的 改变 ,判决 边界 也 随 之 改变 ;对 于 差别 较 大 的 离散 先 验 概率 而 言 ,判决 
边界 不 会 落 于 这 些 一 维 .二 维 及 三 维 球状 高 斯 分 布 的 中 心 点 之 间 


w (x — Xo) = 0 (63) 
其 中 
且 
] Inl P(@w;)/P(w; 
Xo = =(M; + Mj) - a i 一 Hj) (65) 


2 (Mi ~ py EH" (pi — Hj) 
由 于 通常 w= (一 hb ERS we 的 方向 ,因而 通常 分 离 尺 :; AR, 的 超 平面 也 并 非 
与 均值 间 的 连 线 垂 直 正 交 。 但 是 ,如 果 先 验 概 率 相等 ,其 判定 面 确实 是 与 均值 连 线 交 于 其 中 点 xy 
处 的 。 如 果 先 验 概率 不 等 ,最 优 边界 超 平 面 将 远离 可 能 性 较 大 的 均值 (图 2-12)。 同 前 ,如 果 偏 
移 量 足够 大 ,判定 面 可 以 不 落 在 两 个 均值 向 量 之 间 。 
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图 2.12 相等 但 非 对 称 的 高 斯 分 布 的 概率 密度 (由 二 维 平 面 和 三 维 椭 球 面 表示 ) 及 判决 区 域 。 判 
决 超 平面 未 必 和 均 值 连 线 垂直 正 交 


在 一 般 的 多 元 正 态 分 布 的 情况 下 ,每 一 类 的 协 方差 矩阵 是 不 同 的 , 式 (49) 当 中 惟一 可 以 去 
掉 的 一 项 是 (4d/2)ln27, 且 其 判别 隧 数 显然 也 是 二 次 型 


gi(x) = X WixX + Wix + wio (66) 
其 中 
J 
Wi = —-= =)! (67) 
2 
Wi 一 X'p (68) 
H 
1 ,~ 1 
Wig = -5H Mi 一 5 In >a + In Pl(w,) (69) 


在 两 类 问题 中 ,对 应 的 判定 面 是 超 二 次 曲面 。 可 想像 成 任何 一 种 一 般 的 形式 一 一 超 平 面 、 
超 平面 对 、 超 球体 、 超 椭 球 体 、 超 抛物 面 超 双 曲 面 等 各 种 类 型 的 二 次 曲面 ( 习 右 30)。 其 至 在 
一 维 情况 下 ,对 于 存在 任意 协 方差 的 情况 ,其 判决 区 域 也 可 以 不 连通 (图 2-13)。 图 2-14 和 
图 2-15 中 的 二 维和 三 维 的 例子 表明 这 些 不 同 的 形式 是 如 何 产 生 的 。 
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图 2-13 在 方差 不 相等 的 一 维 高 斯 分 布 情 
说 下 ,也 可 能 产生 并 非 单 连通 的 判决 区 域 ， 
如 Pla) 二 Plw) 时 这 里 所 示 的 情况 





Ry Ra R] 


将 这 些 结论 推广 到 多 于 两 类 的 情况 是 比较 简单 和 直接 的 ,尽管 需要 知道 到 底 是 c 类 中 的 
哪 两 类 所 得 出 的 分 类 边界 。 图 2-16 显示 了 由 高 斯 分 布 所 形成 的 4 类 情况 的 判决 面 。 当 然 , 如 
果 分 布 更 加 复杂 , 则 判决 区 域 将 更 加 复杂 ,尽管 基本 的 理论 是 一 致 的 。 


Pa ~ a 








图 2-14 任意 高 斯 分 布 导致 一 般 超 二 次 曲面 的 贝 叶 斯 判决 边界 。 反 之 ,给 定 任 意 超 二 次 曲面 ,就 能 
求 出 两 个 高 斯 分 布 , 其 贝 叶 斯 判决 边界 就 是 该 超 二 次 曲面 。 它 们 的 方差 由 常 概率 密度 的 围 线 表 示 


4] 
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次 曲面 的 贝 叶 斯 判决 边界 


二 维 的 超 二 


维 高 斯 分 布 产生 


任意 的 三 
直线 的 判决 边界 


图 2-15 
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4 个 正 态 分 布 的 判决 区 域 。 尽 管 


图 2-16 





形状 也 是 相当 复杂 的 


情况 ,其 判决 区 域 的 
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例 1 二 维 高 斯 分 布 数据 的 判决 区 域 

为 了 前 明 以 上 这 些 思想 ,我 们 通过 本 例题 详细 
的 计算 两 类 问题 中 二 维 数据 的 判决 边界 。 两 类 高 
斯 分 布 所 计算 出 的 贝 叶 斯 判决 边界 ,每 一 类 都 基于 
4 个 数据 点 。 

Lo, 表示 4 个 黑 点 的 集合 ,w 表示 红 点 集合 。 
尽管 我 们 在 下 一 章 中 需 用 大 量 的 篇 幅 来 说 明 如 何 
估计 这 些 分 布 的 参数 ,但 在 这 里 仅仅 假设 我 们 只 需 
要 计算 均值 和 协 方差 ,由 式 (40) 和 式 (41) 中 采用 的 
离散 计算 方法 可 得 ， 


3 2 0 3 2 
we[2} SCE 8) aml ah eC) 


MAEN : 





- 2 0 a [12 0 
B= (5 2 ) 及 2 = ( 0 2 ) 


假设 两 类 分 布 的 先 验 概 率 相 等 ,PC ) 王 Pos) 一 0.5, 将 其 代 人 一 般 形 式 的 判别 式 (66) 一 
式 (69), 则 giCx) 一 gzCx) 时 的 判决 边界 为 


x: 一 3.514 — 1.125xi 十 0.1875x1 
此 方程 描述 了 一 顶点 位 于 |， gg) SO 尽管 两 种 分 布 的 数据 沿 x WES H 


决 边界 并 不 通过 两 均值 的 中 点 [ > ) ,这 与 我 们 通常 的 猜想 不 同 。 这 是 因为 对 于 w 分 布 而 言 ， 


沿 xi 方向 的 概率 分 布 相 比 于 w 分 布 受 到 挤 压 ,由 于 总 的 先 验 概率 相等 ( 即 整个 概率 密度 空间 
的 积分 相等 ) ,那么 沿 x. 方向 的 分 布 将 增加 (相对 于 ws 分 布 )。 因 此 判决 边界 位 于 两 均值 中 点 
偶 下 一 点 ,这 可 从 图 中 的 判决 边界 看 出 。 


“2.7 ”误差 概率 和 误差 积分 


如 果 考 虑 一 般 分 类 髓 一 一 贝 叶 斯 分 类 峰 或 其 他 类 型 一 一 造成 错误 分 类 的 原因 ,我 们 可 以 
对 其 操作 过 程 做 更 深入 的 了 解 。 首 先 考 虑 两 类 情况 , 且 假 设 二 分 分 类 器 以 一 种 可 能 不 是 最 优 
的 方式 将 空间 分 成 两 个 区 域 尺 , 和 RR: 。 错 误 分 类 可 能 以 两 种 形式 出 现 :真实 类 别 为 wl 而 观测 
É x HAR ,或 者 真实 类 别 为 o 而 观测 值 x 落 和 RR! 。 由 于 这 些 事 件 互 斥 并 且 和 覆盖 整个 事件 
空间 ,因此 误差 概率 为 
P (error) = P(x € R2, w) + P(x € Ri, @) 
= P(x € Rlwi)P (@) + P(X € Rj |w2) P (w2) 


- f pixlar) P(o) dx + | px) P (cop) dx 


Ra Ry 


(70) 
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此 结果 的 一 维 情 况 如 图 2-17 所 示 。 式 (70) 中 的 两 个 积分 分 别 代 表 函 数 palo) P) E 
部 的 粉红 和 灰色 区 域 ,因为 判决 点 zx" 是 任意 选取 的 ,所 以 误差 概率 并 没有 最 小 化 。 特 别 的 ,如 
末 判 决 边界 移 到 xs ,那么 标 有 “可 去 误差 ”的 三 角 区 域 可 以 去 掉 。 一 般 的 ,如 果 palo) P(o) 
> p(x|@2) PCa, ) URE x WAAR 是 比较 有 利 的 ,这 样 可 减 小 误差 积分 的 大 小 ,而 这 正好 是 
贝 叶 斯 判决 规则 所 得 的 结论 。 

在 多 类 情况 下 ,出 错 的 方式 比 正确 的 方式 多 ,因而 计算 正确 分 类 的 概率 相对 较 简 单 ,显然 ， 


P(correct) = > P(x € Ri, w;) 


i=] 


= J P(x € Rilwi) P (œ) 
i=] 


44 C 
‘ene 
= . 
45 >| P(x|w@;) P(w;) dx 
式 (71) 的 一 般 结果 既 不 取决 于 特征 空间 如 何 被 划分 为 判决 区 域 ,也 不 取决 于 内 在 的 分 布 
形式 ,由 叶 斯 分 类 响 通 过 选择 对 所 有 x 使 被 积 函数 最 大 的 区 域 来 最 大 化 这 个 概率 ;没有 其 他 的 
分 类 方法 可 以 产生 更 小 的 误差 概率 。 


2-1? 相等 先 验 概率 情况 下 的 误差 Pix lw) P(ew,) 
概率 组 成 以 及 ( 非 最 优 ) 判 决 点 zr" 。 粉 

红 区 域 对 应 于 实际 类 别 为 由 而 判 为 | 

o 的 误差 概率 ,灰色 区 域 相反 ,如 式 
(70) 。 如 果 判 决 边界 在 相等 后 验 概 率 
点 za 处 ,那么 此 “可 去 误差 ”区 将 消失 ， 
总 的 有 阴影 的 区 域 将 减 到 最 小 一 一 这 
就 是 贝 叶 斯 判决 导致 的 贝 叶 斯 误差 率 








/ \ 
fpe Plod 一 ~ |pe |, )P( aa, eax 


Ri R2 


“2.8 正 态 密度 的 误差 上 界 


贝 叶 斯 判决 规则 确保 了 最 低 的 误差 概率 ,并 且 知 道 如 何 计 算 判 决 边界 。 然 而 ,这 些 结论 并 
没有 告诉 我 们 实际 的 误差 概率 是 多 少 。 高 斯 情况 下 的 整个 误差 率 计 算 过 程 相 当 复 杂 , 尤 其 是 
高 维 情况 ,这 是 因为 式 (71) 的 积分 范围 中 的 判决 区 域 不 连续 。 但 是 ,两 类 情况 下 式 (5) 的 一 般 
误差 积分 公式 可 近似 的 给 出 一 个 误差 率 的 上 界 (upper bound). 
2.8.1 Chernoff 界 

为 获得 误差 的 界 (bound) , 需 利用 下 列 不 等 式 

minfa, b] < afb! -P (a,b>0 HO<B <1) (12) 
为 理解 这 一 不 等 式 , 不 失 一 般 性 ,假设 ab AETH EREKE bab t labb, AF 
(a/6)f 之 1, 此 等 式 显 然 是 成 立 的 。 利 用 式 (7) 和 (1) 并 将 此 不 等 式 代 人 式 (5) 可 得 到 上 界 ， 


Plerror) < P? (w) P!P (a) J pf (Xlw1)p' E (xja) dx (0< <!) (73) 
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尤其 注意 此 积分 是 在 整个 特征 空间 上 的 积分 ,不 需要 加 上 与 判决 边界 对 应 的 积分 限制 。 
如 果 条 件 概率 是 正 态 的 , 式 (73) 的 积分 结果 可 用 解析 法 计算 出 (习题 36)， 


J p® (xlæwi) pÊ (x|w2) dx = e*® (74) 


其 中 


i 一 | 
k(B) = EUP p ~ mY [BE + (1 -BYÈ (pa — p) 


1 |52; + (1 — B)2)| 
ta” SE 
图 2-18 的 例子 显示 了 eh 如 何 随 8 的 变化 而 变化 的 典型 情形 。P(error) 的 Chernoff 界 
可 通过 数值 分 析 或 直接 查找 使 e-ke 最 小 的 8 值 求 出 ,然后 把 这 个 8 代入 式 (73)。 这 里 很 关键 
的 一 点 是 此 优化 过 程 是 在 一 维 8 空间 中 进行 的 ,尽管 分 布 本 身 可 能 位 于 任意 高 维 的 空间 。 


图 2-18 Chernoff 界 不 会 比 

Bhattacharyya 界 松 弛 。 此 例 eB) 
H , Chernoff 界 取 在 8* = 0. 66 0.8 
处 , 比 Bhattacharyya # (B= 0. 5) 
稍微 紧 致 一 些 0.6 | Bhattacharyya 界 


(75) 





2.8.2 Bhattacharyya 界 

图 2-18 所 示 的 Chernoff 界 对 8 的 依赖 性 在 很 多 问题 中 都 普遍 存在 , 即 对 于 处 于 极 值 ( 即 
A>1 和 >0) 处 的 界 较 松 弛 ,而 中 间 较 紧 致 。 优 化 后 的 8 的 精确 值 取决 于 分 布 参 数 和 先 验 概 
率 ,一 种 计算 较 简 单 但 稍微 松 一 点 的 界 可 以 通过 仅仅 取 p=1/2 处 的 值 获得 。 这 就 给 出 所 谓 的 
Bhattacharyya 误差 的 界 , 于 是 式 (73) 的 形式 为 


P(error) < VP(OI) PoO2) | v P(x|@1) p(x|@2) dx 


(76) 
= y P(w)P(wr)e “0 
其 中 通过 式 (75) 可 得 高 斯 分 布 的 情况 如 下 : 
| fora | 
(77) 


£ +T L 
k(1/2) = 1/8(p2 — mı” be (Ha — Bi) + 5 In WAP TIP 
1 2 


如 果 分 布 并 非 高 斯 的 ,Chernoff 和 Bhatacharyya 界 仍然 可 用 ,但 是 ,对 于 偏离 高 斯 分 布 太 
远 的 分 布 ,这些 上 界 并 不 能 说 明 什 么 问题 (习题 34) 。 
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例 2 高 斯 分 布 情况 下 的 误差 率 的 界 

例 1 中 二 维 数据 集 的 Bhattacharyya 界 的 计算 是 很 简单 和 直接 的 ,将 例 1 的 均值 和 方差 代 
和信 式 (77) 得 到 k(1/2) 二 4.06, 则 由 式 (76) 和 式 (77) 可 知 Bhattacharyya 误差 界 为 PCerron< 
0. 0087, 

通过 数值 查找 式 (75) 的 Chernoff 边界 可 近似 得 到 一 更 加 紧 致 的 误差 边界 ,此 问题 中 给 出 
的 结果 是 0.016380。 直 接 用 式 (5) 的 误差 率 数 值 积 分 公式 得 出 最 好 的 误差 率 估 计 , 其 结果 为 
0.0021, 因 此 这 里 所 得 的 边界 并 不 是 非常 紧 致 的 。 这 样 ,高 斯 分 布 的 数值 积分 在 高 维 空间 (大 
于 二 维 或 三 维 ) 通 常 不 太 实 用 。 








2.8.3 ”信和 号 检测 理论 和 操作 特性 

为 一 种 测量 两 个 高 斯 分 布 之 间距 离 的 方法 在 实验 心理 学 、 雷 达 检 测 及 其 他 领域 有 着 相当 
大 的 实用 价值 。 假 如 我 们 要 检测 一 个 弱 脉 冲 , 如 一 个 黯淡 的 闪光 或 一 个 微弱 的 雷达 反射 信号 ， 
那么 ,模型 可 以 这 样 假设 ,在 检测 器 的 某 点 有 一 内 部 信号 (如 电压 )z, 当 外 部 信和 号 (脉冲 ) 出 现 
时 , 它 具 有 均值 y; , 当 不 出 现时 均值 为 WW 。 由 于 随机 噪声 (可 能 来 自 检 测 器 的 内 部 和 外 部 ) 的 
影响 使 得 实际 值 是 一 个 随机 变量 。 假 设 分 布 是 正 态 的 , 且 具 有 不 同 的 均值 和 相同 的 方差 , 即 
pzloi) 一 NT) 如 图 2-19 Bra. 


图 2 19 在 没有 任何 外 部 脉冲 出 现 期 间 , 内 PW 中 
部 信号 的 概率 密度 是 正 态 的 , 即 pzlw) 一 

N10 ), 当 外 部 信号 出 现时 , 密度 为 

P(xlw)~N(pw ,0 )。 任 一 判决 国 值 x 将 确 / 
定 一 次 * 击 中 ”(ws 曲线 以 下 ,z* 以 上 的 红色 区 / = 
域 ) 的 概率 以 及 一 次 * 虚 警 *(w PALF” ; \ 
以 上 的 黑色 区 域 ) 


(wy fi 





j 
} 
j 
j 
| P 
a 


Hi * H 


#7 Wl at (AP EE A FA — r 来 判定 是 否 存 在 外 部 脉冲 。 如 果 我 们 作为 试验 者 , 那 
么 对 我 们 来 说 ,zx* 的 值 是 无 法 知道 的 (也 不 知道 此 分 布 的 均值 和 标准 差 )。 我 们 要 寻找 某 种 度 
量 ,以 某 种 与 c 的 选取 无 关 的 方式 来 判决 是 否 存在 外 部 脉冲 。 这 个 度量 即 是 一 种 “判别 能 力 ” 
(discriminability) , 它 描述 了 与 噪声 和 外 部 信号 强度 无 关 的 一 种 固有 不 变 的 属性 ,但 并 不 是 一 
种 判决 策略 ( 即 实 际 的 x* 的 选取 )。 这 种 “判别 能 力 ” 的 测度 定义 为 
j= luz 一 ul 
o 


my 


(78) 


HARTARA — TRAR ad 值 。 
昌 然 我 们 并 不 知道 uso Rx’ ,但 是 假设 已 知 类 别 状态 ,并 且 已 知 系统 的 判决 结果 ,由 
这 些 信息 可 以 计算 < 。 
考虑 下 面 的 4 种 可 能 : 
e P>’ 1zEowz): 一 次 击 中 (hit) 一 一 假设 有 外 部 信号 出 现 , 并 且 内 部 的 信号 的 概率 大 
本 更 
© P(xr>x* 1zEu): 一 次 虚 警 (false alarm) 一 一 尽管 并 无 外 部 信和 号 出 现 , 但 内 部 信和 号 的 概 
率 仍然 大 于 r” 
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e P(1<x* |x€w,):—K ie (miss) 假设 有 外 部 信和 号 出 现 , 而 内 部 信号 的 概率 却 小 


Fr” 
e P(r 之 zx” |x€o,):— RIE HHE (correct rejection) 一 一 假设 没有 外 部 信号 出 现 , 并 
且 内 部 信号 的 概率 小 于 Z 


如 果 做 大 量 的 试验 ( 且 假 设 c 是 固定 的 ,尽管 其 具体 数值 未 知 ) 。 可 以 通过 试验 确定 这 些 
概率 ,尤其 是 击 中 率 和 虚 警 率 。 在 一 个 二 维 图 中 绘 出 一 个 点 代表 这 些 概率 ,如 果 密 度 固 定 而 阔 
E r 改变 ,那么 击 中 率 和 虚 警 率 也 随 着 改变 。 因 此 可 以 看 出 对 于 一 给 定 的 判决 能 力 d ,所 描 
绘 的 点 将 随 着 一 平滑 曲线 , 即 “ 接 收 机 操作 特性 曲线 ”(receiver operating characteristic, ROC) 
移动 (图 2-20). 

图 2-20 ”在 一 接收 机 操作 特性 曲线 中 , 横 坐 标 是 虚 警 he 

率 ,P(z>z |zEmw), 纵 坐标 为 击 中 率 ， ] 

Pla>a* |xE€E ww)。 从 所 测 的 击 中 率 和 虚 警 率 ( 这 里 对 

应 图 2-19 的 xz* , 且 用 红 点 显示 ) 可 推出 d =3 


d=0 


P(x>x*lx € a) 


虚 警 率 
0 


0 P(x>x*|x € om) 1 


这 种 信号 检测 方案 的 最 大 的 好 处 是 可 以 有 效 地 区 分 开 “ 判 别 能 力 ” 和 “决策 偏差 ”(decision 
bias) 。 前 者 是 检测 系统 的 一 种 固有 属性 , 而 后 者 取决 于 接收 器 在 内 在 的 可 调整 的 “损失 和 扼 
阵 ”。 任 何 一 对 击 中 率 和 虚 警 率 经 过 且 仪 经 过 一 条 ROC 曲线 ,因此 ,只 要 两 种 概率 既 不 是 0 也 
不 是 1, 就 可 由 这 些 概率 决定 “判决 能 力 ”( 习 题 39)。 并 且 , 如 果 还 是 做 高 斯 假设 ,此 “判决 能 
力 ” 的 确定 (由 一 任意 zx" 得到) 使 得 可 以 计算 出 贝 叶 斯 误差 率 一 一 任何 一 种 分 类 器 的 最 重要 的 
属性 。 如 果实 际 的 误差 率 与 用 这 种 方式 所 推出 的 贝 叶 斯 误差 率 不 同 ,就 必须 相应 的 改变 阐 值 
T o 

把 以 上 讨论 推广 到 具有 任意 多 维 分 布 (不 管 是 高 斯 还 是 非 高 斯 ) 的 两 类 情况 是 比较 容易 
的 。 假 设 有 两 种 分 布 p(x|w) 和 p(x|w), 它 们 相互 重 释 ,因此 具有 非 零 的 贝 叶 斯 分 类 误差 
率 。 如 同上 面 所 看 到 的 一 样 , 任 何 实际 属于 w 的 模式 可 能 被 正确 的 分 到 w, (一 次 击 中 ) 或 错 
误 的 分 到 m (一 次 虚 警 ) 。 但 是 与 上 面 的 一 维 情况 不 同 的 是 ,有 许多 判决 边界 给 出 一 特定 的 击 
中 率 ,每 一 边界 具有 一 个 不 同 的 虚 警 率 。 显 然 ,在 这 里 ,不 存在 仅仅 知道 击 中 率 和 虚 警 率 而 不 
知 记 其 他 的 任何 潜在 判决 规则 的 情况 下 ,就 确定 “判决 能 力 ” 的 基本 计算 方法 。 

在 一 种 几乎 不 可 能 达到 的 理想 状态 下 ,可 以 假设 所 得 的 击 中 率 和 虚 警 率 都 是 最 优 的 。 例 
如 ,在 所 有 可 以 给 出 击 中 率 的 判定 规则 中 ,实际 选择 使 用 具有 最 小 虚 警 率 的 规则 。 如 果 构 造 一 
个 多 维 分 类 器 一 一 先 不 管 使 用 何 种 分 布 我 们 当然 希望 可 以 以 这 种 方式 来 处 理 问 题 ,尽管 
找到 最 优 击 中 率 和 虚 警 率 可 能 需要 巨大 的 计算 代价 。 

实践 中 ,可 避 开 最 优化 计算 , 而 通过 简单 的 调整 控制 判 据 的 单个 参数 , 绘 出 击 中 率 和 虚 警 
率 的 结果 ,得 到 一 条 接收 机 操作 特性 曲线 。 这 一 控制 参数 可 以 是 判决 函数 里 的 偏差 或 非 线性 。 
通常 选择 这 样 一 种 控制 参数 ,使 得 在 极 值 处 要 人 么 虚 警 率 为 零 , 要 么 击 中 率 为 零 , 这 正好 可 以 通 
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过 ROC 曲线 上 一 个 非常 大 或 非常 小 的 x* 获得 。 需 要 注意 到 ,由 于 分 布 是 任意 的 ,其 操作 特性 
未 必 是 对 称 的 (图 2-21) ,在 极 少 数 情 况 下 甚至 未 必 是 下 四 的 。 
P(x) 击 中 率 


I | 1 


P(x>x*lx € ah) 


虚 警 率 


P(x>x*ix € a) l 


图 2-21 在 一 个 一 般 的 操作 特性 曲线 上 , 横 坐 标 是 虚 警 率 ,P(zE Re |xz€E wm), 纵 坐标 是 击 中 率 ， 
PFCzERsizEw)。 为 了 说 明 情 况 , 这 里 执行 特性 曲线 通常 不 是 对 称 的 ,如 右边 的 图 所 示 


x 


在 损失 矩阵 %ij 可 能 发 生变 化 的 问题 中 ,采用 分 类 器 的 操作 特性 曲线 是 有 价值 的 。 如 果 提 
前 确定 操作 特性 作为 控制 参数 的 函数 ,当面 对 一 个 新 的 损失 函数 时 ,很 容易 推导 出 使 期 望 风 险 
最 小 化 的 控制 参数 (习题 39) 。 


2.9” 贝 叶 斯 决策 论 一 一 离散 特征 


到 现在 为 止 所 讨论 的 特征 向 量 x 可 以 为 d 维 欧 氏 空间 R 中 的 任意 一 点 。 但 是 ,在 许多 实 
际 的 应 用 当中 ,x 中 的 元 素 可 能 是 二 进 制 的 ,三 进 制 或 者 更 高 的 离散 整数 值 ,以 至 于 x 可 以 被 
认为 是 m SRB Viv, 中 的 一 个 。 在 这 种 情况 下 ,概率 密度 函数 p(x|w) 变 得 奇异 化 ， 
积分 形式 


| rate) dx (79) 
必须 由 相应 的 求 和 形式 代替 如 下 ， 
` P(x|@;) (80) 


其 中 求 和 是 在 所 有 离散 分 布 的 x 值 上 进行 的 9 。 于 是 , 贝 叶 斯 公式 中 的 概率 密度 函数 由 概率 
分 布 函数 


peo = ZADRE 81 
所 代替 ,其 中 . 
P(x) = 》 P(xlwj) P(@,) (82) 
j=} 


条 件 风险 RCalx) 的 定义 不 变 , 且 贝 叶 斯 决策 论 的 基础 不 变 : 为 减 小 总 风险 ,选择 行为 a; 使 
Ra; | x) Bx) ,或 者 形式 化 的 阐述 为 


O ”从 技术 上 讲 , 式 (80) 应 该 写成 PO la) EP PO lo) 是 在 类 别 状态 为 w; 的 条 件 下 x=vi 的 条 件 概率 。 
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a” = arg min R(a;|x) (83) 


1 ct BK 16 i EE Be) 1b RE EY HEE RUA ANE, HKA RK [Re] L266) ~ (28), R 
HB et H 4) HB Ot BP ek Bp (+) RRR TG PR PC), 
2.9.1 独立 的 二 值 特征 
举 一 个 对 离散 特征 量 进行 分 类 的 例子 。 考 虑 两 类 问题 ,其 中 特征 问 量 的 元 素 是 二 值 的 ,并 
且 条 件 独 立 。 更 详细 的 说 , 令 x= (zi,，… ,za)', 其 中 元 素 zi 可 能 为 0 或 1, 且 
= Pr[x; = lw] (84) 
及 
qi = Prix; = 1|w2] (85) 
这 里 有 一 个 分 类 问题 的 模型 ,其 中 每 一 特征 量 给 出 一 个 关于 该 模式 的 “是 ?或 “ 否 ” 的 答案 ， 
如 果 p> WOT EW SRA o 时 第 i 个 特征 量 给 出 “是 ”的 频率 将 高 于 状态 为 ws 时 的 频 
率 。 例 如 ,考虑 两 个 生产 相同 汽车 的 工厂 ,每 个 工厂 所 生产 的 d 个 部 件 可 能 是 合格 的 也 可 能 
是 有 缺陷 的 ,如 果 两 个 工厂 对 于 每 一 个 部 件 的 依赖 关系 是 已 知 的 ,那么 根据 对 特征 是 合格 的 还 
是 有 缺陷 的 知识 ,可 用 这 种 模型 判断 是 哪个 工厂 生产 了 某 个 给 定 的 汽车 。 通 过 假设 条 件 独 立 
可 将 x 的 元 素 的 概率 写 为 P(x|w;)。 在 此 假设 下 ,可 将 类 条 件 概 率 方 便 的 表示 如 下 : 











d 
P(xlw) = | [p7 - pD” | (86) 
i=] 
且 
P(x|w2) = Tan (1 — q) (87) 
i=] 
那么 似 然 比 为 
PGlon) /piv (1 — pii 
Palon ~ L1G.) Ga) (88) 
接 下 来 由 式 (31) 可 得 判决 函数 
d 
Pi 1 — pj P(w) 
ew = | Ine, tO = a) PT 一 | + (89) 
TUE BAR BOT F r: 是 线性 的 ， MCSA R 
g(x) = Du + Wo (90) 
其 中 
Pi(l 一 qi) . 
| 一 ln 一 l, e, d 
"Sagapo ia 
及 
wo = yn Pi 十 ln OU) (92) 


" P (wr) 


入 查 下 这 些 结论 看 看 它们 可 以 给 出 什么 信息 。 首 先 回忆 如 果 KODO, WAN on AU 
g(x) 志 0, 则 判 为 w。。 可 以 看 出 g(x) 是 x 的 各 分 量 的 加 权 组 合 。 权 重 w; 的 幅 值 表示 进行 分 类 
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时 z, 与 一 个 “是 ”的 回答 相关 联 的 程度 。 如 果 pq 没有 给 出 任何 有 关 类 别 的 信息 ,并 且 
正如 我 们 所 意料 的 那样 有 ,w = 0。 如 果 pqg MA laip 且 w 是 正 的 。 因 此 这 种 情 
况 下 zi 的 一 个 “是 ”的 回答 将 权 值 w 贡 献 给 判决 w,。 并 且 , 对 于 任 一 固定 的 g; 二 1, 当 p BK 
时 w; 也 变 大 。 另 一 方面 ,如 果 pi; 一 g;,w 是 负 的 ,那么 一 个 “是 ”的 答案 将 |w| 分 给 判决 o. 

特征 独立 的 条 件 将 产生 一 个 非常 简单 的 (线性 ) 分 类 器 。 当 然 如 果 特 征 不 独立 ,将 需要 一 
个 更 加 复杂 的 分 类 器 ,这 将 在 具有 连续 特征 的 系统 中 再 次 碰 到 。 但 在 这 里 使 特征 值 越 独 立 , 越 
能 得 到 一 个 更 加 简单 的 分 类 器 。 

先 验 概率 PCw,) 仅 仅 通过 阅 值 权 系 数 wo 的 形式 出 现在 判决 函数 中 , 增 大 P(e, ) 即 增 大 mn 
且 将 判决 偏向 w 类 ,而 减 小 PCw ) 则 相反 。 几 何 上 ,x 的 可 能 值 出 现在 一 个 4 维 超 立方 体 的 
顶点 ,由 g(x) =0 所 定义 的 判决 面 是 一 个 将 w 的 顶点 同 w 的 顶点 分 割 开 的 超 平面 。 





例 3 三 维 二 值 特征 量 的 贝 叶 斯 判决 

假设 有 两 个 类 别 ,采用 独立 的 三 维 二 值 特征 来 表示 , 且 特 征 的 概率 已 知 ,如 果 Po) 
P(o: ) 王 0.5, 并 且 各 个 分 量 均 遵循 p, 二 0.8 H g;==0.5(i= 二 1,2,3)。 以 此 来 构造 贝 叶 斯 判决 边 
界 。 通 过 式 (91) 和 式 (92) 可 得 权 系 数 


且 侦 置 量 为 








Was |” 
BY 


] 






此 例 的 判决 边界 包括 三 维 二 值 特征 量 , 左 边 显示 的 是 p; 二 0.8 Mg =0.5 的 情况 。 除 了 
保证 ps =q 之 外 ,右边 使 用 相同 的 值 ,这 使 得 w= 二 0 且 判 决 面 平行 于 zs 轴 。 

左 图 显示 了 式 (90) 中 g(x) 表 示 的 平面 ,确实 同 料 想 的 那样 ,此 分 界面 将 两 次 或 更 多 次 回 
答 “ 是 ”的 点 分 到 了 o 类 ,因为 该 类 的 特征 取 1 的 概率 要 更 高 一 些 。 

再 假设 先 验 概率 保持 不 变 , 各 个 分 量 服 从 pi 二 ps 一 0.8,p; 一 0.5 和 gi 二 qz 二 qs 二 0.5。 在 
这 种 情况 下 ,特征 zs 并 未 给 出 有 关 类 别 的 可 预测 信息 ,因此 判决 边界 与 x; 轴 平 行 。 注 意 在 这 
种 离散 情况 下 ,判决 边界 上 的 很 大 一 块 区域 使 得 分 类 判决 并 未 发 生变 化 ,这 从 右 图 中 清晰 可 
见 。 
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‘2.10 丢失 特征 和 队 声 特征 


如 果 知 道 某 个 问题 的 全 部 概率 结构 ,就 可 构造 出 (最 优 ) 贝 叶 斯 判定 规则 。 假 设 利 用 未 受 
损 的 数据 来 训练 产生 一 贝 叶 斯 分 类 器 ,而 输入 的 测试 数据 被 以 某 种 特殊 的 方式 受到 破坏 ,如 何 
才能 将 这 些 受 破坏 的 输入 数据 分 类 以 获得 最 小 的 误差 率 呢 ? 

有 两 种 情况 是 可 以 解析 求解 的 :(1) 当 已 知 部 分 特征 量 丢 失 了 ;(2) 已 知 它们 受 某 个 性 质 已 
知 的 噪声 源 的 污染 。 处 理 每 种 情况 的 最 基本 的 方法 就 是 尽 可 能 多 的 恢复 出 内 在 的 分 布 信息 ， 
然后 再 使 用 贝 叶 斯 判决 规则 。 

2.10.1 丢失 特征 

假设 现在 有 一 个 利用 两 种 特征 的 贝 叶 斯 识别 器 。 但 是 对 于 某 个 待 识别 的 模式 而 言 , 其 中 
的 一 种 特征 丢失 了 。 比 如 ,容易 想像 出 ,只 通过 鱼 的 一 部 分 就 可 以 测量 出 鱼 的 光泽 度 , 但 是 却 
不 能 得 到 宽度 信息 ,因为 它 被 其 他 鱼 遮挡 了 。 

可 用 4- 类 分 类 情况 来 说 明 更 一 般 的 情况 (图 2-22)。 假 设 对 于 一 个 特定 的 测试 模式 ,> 
丢失 ,日 zs 的 测试 值 为 zx, 。 显 然 如 果 假 设 损失 的 值 为 所 有 zi 值 的 均值 BD zi ,那么 可 将 模式 
判 为 w;。 但 是 ,如 果 先 验 概率 相等 ,w, 将 是 更 好 的 选择 ,这 是 由 于 图 中 显示 出 了 z(zslws) 是 4 
种 似 然 函 数 里 最 大 的 。 


图 2-22 具有 相等 先 验 概 率 的 4 类 ,其 类 条 件 
概率 分 布 如 图 。 如 果 某 测试 样本 点 的 一 个 特征 

值 丢失 掉 ( 此 处 是 xz, 竺 失掉 ) 且 另 一 个 特征 值 测 

出 来 是 xz: (CAP A A f tA RAR), 由 于 
parlor) 4 AUR RRR KM ABR è 
们 的 判决 器 能 将 此 模式 分 到 mm 





为 了 前述 清楚 我 们 的 思想 , 设 x=(x, ;Xsj ,其 中 Xg 表示 已 知 的 或 完好 的 特征 量 » Xp 表示 损 
坏 的 特征 量 , 即 未 知 或 损失 的 情况 。 那 么 需 在 给 定好 的 特征 量 的 前 提 下 寻找 贝 叶 斯 规则 , 且 需 
要 用 到 后 验 概率 。 用 好 的 特征 量 表示 的 后 验 概 率 为 


| is Xp, d 
Panj- Sd _ { Pi: Xe, Xo) AX 


p(Xg) P(Xg) 
_ f PlwilXg, Xb) P(X, Xb) dxp 
P(Xg) 
_ J gi) p(X) dx 
f p(x) dx, (93) 


其 中 g(x) =g: (x, »X,) = P(w; | xs >X,) JE Fi) Fl pw BY A — PB cK. 
将 p(w,xs,%)dx 看 成 一 边缘 分 布 , 称 整个 分 布 在 变量 %。 上 进行 “ 边 绿化 "(marginalize)， 


简 言 之 , 式 493) 表 明 必 须 在 整个 损坏 的 特征 空间 中 对 后 验 概 率 进行 积分 。 最 后 将 贝 叶 斯 判定 规 
则 用 于 所 得 出 的 后 验 概率 ,也 就 是 ,如 果 对 于 所 有 的 :和 7 有 Po lx) >P ix) MAH w. 
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第 3 章 中 将 研究 “期 望 最 大 化 ”EM) 算 法 ,其 讨论 的 也 是 包含 特征 丢失 的 有 关 问 题 。 
2.10.2 上 曲 声 特征 

很 容易 将 式 (93) 的 结论 推广 到 一 般 情形 ,其 中 某 个 特定 的 特征 量 受 到 统计 独立 的 噪声 于 
扰 。 例 如 ,在 鱼 的 分 类 的 例子 中 ,可 能 有 测量 长 度 的 可 靠 方 法 ,但 是 由 于 光源 的 变化 使 得 光泽 
度 的 测量 不 够 准确 。 假 设 , 和 前 面 一 样 , 现 在 有 未 受 损 的 特征 量 x ,以 及 一 种 曝 声 模型 ,其 表 
达 式 为 p(xs1x,)。 这 里 用 x, 来 表示 观测 到 的 x 特征 量 的 真实 值 ,也 就 是 在 无 噪声 情况 下 的 测 
试 值 , 简 言 之 ,用 观测 值 x 来 代替 真实 值 x,。 假 设 如 果 x 已 知 ,那么 % 将 与 wo 和 x 独立 ,在 
这 种 假设 下 可 得 
f plwi, Xg, Xb, Xr) AX, 

p(Xe, Xp) 

现在 pC; ,Xs ,Xs ,Xi) =P Co |X, 0X5 5x,) CX, XX) ,但 在 假设 独立 的 条 件 下 ,如 果 已 知 x,, 
Ax 将 不 提供 有 关 w, 的 附加 信息 。 因 此 有 Po; l Xxx) = PCa lxx), AEE 
DCX, Xo X,) = pCx, |X, 9 X,) DCX, ox.) Al p(xs |x, ,xX,) = pCx, |x,) ,将 它们 联 立 起 来 可 得 
f P(wilxXg, Xi) p(Xe, Xr) p(XplX) dX; 

© J p(Xg, Xi) p(Xo|X) ax, 


P(@;|Xg, Xp) = (94) 


P (wi|Xg, Xp) = 


J PX) p(XplxXi) dx, (95) 


-将 上 式 作为 判别 函数 通过 贝 叶 斯 方式 进行 分 类 。 


式 (95) 与 (93) 的 区 别 之 处 仅仅 在 于 被 积 函数 受 噪 声 模型 加 权 。 在 极端 情况 下 , 思 (x |x,) 
在 整个 空间 中 为 1( 因 而 不 提供 有 关 类 别 的 预测 信息 ) ,上 式 简 化 为 丢失 特征 量 时 的 情形 ,而 这 
也 是 我 们 预期 的 结果 。 


*2.11 贝 叶 斯 置信 网 


到 现在 为 止 ,我 们 所 描述 的 方法 都 相当 一 般 化 。 基 本 上 ,我 们 仅 仪 假定 存在 一 个 可 通过 特 
征 向 量 6 来 描述 的 参数 化 的 分 布 形 式 。 但 是 如 果 事 先 有 关于 参数 6 本 身 的 分 布 的 先 验 信息 ， 
同样 可 以 在 求解 问题 时 充分 加 以 利用 。 有 时 ,关于 分 布 的 先 验 知 识 并 非 直 接 是 分 布 的 形式 ,而 
是 有 关 各 个 特征 分 量 之 间 的 统计 相关 (或 独立 ) 性 。 回 忆 多 维 分 布 p(x) ,如 果 对 于 两 个 特征 量 
有 prix) =pl) p(xz;), 则 说 明 这 两 个 变量 统计 独立 (图 2-23) 。 

在 很 多 情况 下 可 以 知道 (或 者 可 以 安全 的 假定 ) 某 些 特征 量 是 否 是 独立 的 ,甚至 在 没有 样 
本 数据 的 情况 下 也 可 以 这 样 做 。 比 如 ,要 描述 一 辆 汽车 的 状态 ,有 关 的 参量 有 :发 动机 温度 、 油 
压 , 轮 胎 内 气压 .电气 系统 的 电压 ,等 等 、 而 关于 汽车 的 常识 告诉 我 们 :发 动机 内 的 油 压 与 轮胎 
内 的 气压 是 没有 关系 的 ,因而 可 安全 的 假设 为 统计 独立 。 但 是 , 油 的 温度 和 发 动机 的 温度 并 不 
独立 (但 可 能 条 件 独 立 )。 而 且 ,我 们 知道 某 些 参量 的 改变 会 影响 其 他 参量 :冷却 剂 的 温度 受到 
发 动机 温度 .散热 风扇 (给 装 有 冷却 剂 的 散热 顺 吹 风 ) 的 转速 等 等 的 影 啊 。 

我 们 将 用 图 形 的 形式 来 表示 这 些 因果 依赖 性 ,这 就 是 “ 贝 叶 斯 置信 网 ”(Bayesian belief 
net) ,也 称 为 因果 网 Ccausal network) ,或 者 简单 地 称 为 置信 网 (belief net) 或 “信任 网 ”。 它 们 
采用 了 有 向 无 环 图 (directed acyclic graph,DAG) 的 拓扑 形式 ,每 一 个 节点 都 具有 方向 性 , 且 没 
有 循环 市 点 (而 更 一 般 的 情况 是 允许 有 这 样 的 循环 的 )。 尽 管 这 样 的 网 络 也 可 以 表示 连续 的 多 
维 分 布 ,它们 对 于 离散 变量 有 着 更 高 的 实用 价值 。 基 于 这 个 原因 ,以 及 它 的 形式 化 的 表达 非常 
简单 ,因而 我 们 将 主要 讨论 离散 情况 。 
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图 2-23 一 个 三 维 分 布 服 从 光一 元) = T 
pzi)pCzs) ,因而 此 处 zz 和 x 统计 独立 ,但 其 他 oe | 
特征 对 不 独立 papo | 
p> k 


每 一 个 节点 (或 单元 ) 代 表 一 个 系统 变量 ,此 处 取 离 散 值 。 将 节点 标记 为 A,B,…, 并 且 将 
每 一 节点 的 变量 用 相应 的 小 写字 母 标 记 。 因 此 ,尽管 节点 A 有 离散 个 可 能 的 值 如 两 个 ai 
和 a> 但 这 些 离散 的 状态 可 能 具有 连续 的 概率 分 布 。 比 如 ,如 果 节 点 A 代表 一 个 二 值 的 灯 
开关 状态 一 一 aj = Ff pap 一 关 一 一 则 可 能 有 Plai) =0. 739. PCa) =0. 261 ,或 者 任何 其 他 总 和 
为 1 的 概率 值 。 图 2-24 中 将 节点 A 同 节点 C 的 连接 是 有 方向 性 的 , 它 代 表 着 条 件 概 率 
Plci|aj) 或 简单 的 表示 为 PCcla)。 以 后 将 不 关心 这 些 条 件 概率 是 如 何 定义 的 ,除非 要 注意 在 
菜 些 情况 下 由 专家 给 出 了 这 些 值 。 

图 2-24 ”由 节点 (大 写 的 黑体 字母 标记 ) 和 与 它们 相关 的 离散 状态 

《小写 字母 ) 所 组 成 的 置信 网 。 因 此 节点 A 具有 状态 aasa, 

单 记 为 2, 节点 B 具 有 状态 b1 ,请 ,…，, 记 为 b, 等 等 。 节 点 之 间 的 连 线 代 

表 条 件 概率 ,比如 ,P(ecla) 可 由 一 个 元 素 为 Plc;|a) 的 矩阵 来 描述 














假设 有 一 个 置信 网 ,已 经 填 好 了 条 件 概率 ,并 且 已 知 其 中 部 分 状态 的 值 或 概率 。 通 过 仔细 


地 应 用 贝 叶 斯 规则 或 贝 叶 斯 推断 ,可 以 确定 出 网 络 中 的 未 知 变量 的 最 大 后 验 值 。 首 先 考 虑 如 
何 通 过 与 一 个 市 点 相连 单元 的 状态 来 确定 此 节点 的 状态 ,惟一 需要 考虑 的 是 与 之 相连 的 节点 ， 
而 其 他 节点 均 条 件 独立 。 这 就 是 根据 我 们 对 该 系统 的 依赖 结构 所 具有 的 先 验 知识 所 提出 的 简 
化 方案 。 

在 考虑 图 2-25 中 简单 网 络 的 一 个 单一 的 节点 X 时 ,将 和 之 前 的 节点 集合 ( 称 为 父 节 点 刀 ) 
同 X 之 后 的 节点 集合 ( 称 为 子 节 点 C) 区 分 开 是 非常 重要 的 。 当 估计 XX 的 概率 时 ,必须 以 不 同 
的 方式 对 待 的 父 节点 和 子 节点 ,因此 图 2-25 中 和 A 和 B EXP, m CADE XC. 
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图 2-25 ”一 个 置信 和 网 的 一 部 分 ,由 节点 X, 具 有 变量 
{i ws D ,以 及 其 父 节点 (A A B) 和 子 节 点 (C 和 
D) 48 R 








节点 XX 上 的 一 系列 命题 x= (C21, 22,°) A“ BE” Celie) HF TER EMAMARA 
部 分 的 证 据 e 的 前 提 下 这 些 变量 之 间 的 相关 概率 , 即 PCxle)”。 可 以 将 依赖 于 父 节 点 的 置信 

Sl SW Aa AF : 
P(xle) «x P(e&|x) P(xle”) (96) 


其 中 @ Ze an PAA BY HE IR X WOOP AY Ba EE BD ne? HE OH A LTE C 表示 子 
点 上 的 证 据 。 式 (96) 仅 仅 显 示 了 一 个 正比 关系 ,最 终 的 计算 结果 将 在 XX 的 整个 状态 空间 上 
对 概率 进行 归 一 化 。 

式 (96) 的 第 一 个 因子 非常 简单 , 仅 是 一 个 贝 叶 斯 公式 的 形式 ,可 将 对 子 节点 证 据 的 依赖 性 
扩展 为 如 下 的 形式 : 


P(e |x) = Plec, ec,,..., ecc,|x) 
= P(@c, |x) P(ec, |x) --» P (eco lx) 


IC] 
=|] Prec, |x) 
j=! (97) 


其 中 C 表示 第 7 个 于 节点 ,ec 表示 其 状态 的 概率 值 , 辣 时 注意 表达 式 1cC| 表 示 和 集合 C 的 势 ( 或 
集合 的 基 , 即 ,集合 中 的 元 素 个 数 ) ,是 一 种 方便 的 表示 求 和 或 乘积 的 总 范围 的 方式 。 式 (97) 的 
最 后 一 步 是 因为 子 节点 之 间 不 存在 连接 ,所 以 它们 在 给 定 的 x 下 是 相互 独立 的 。 这 个 比例 式 
简单 的 说 明了 所 有 XX 的 子 节 点 的 一 给 定 状态 集 的 概率 是 所 有 子 节点 的 (独立 ) 概 率 的 乘积 。 
比如 ,在 图 2-25 中 的 简单 例子 中 ,有 


P (ec, ep|x) = P(ec|x) P(ep|x) (98) 
BRA SK SO 45 a AYE DAY PE R — E, RTA 
P(xle”) = P(xlep,,ep,,..., ep ip|) 
= pe PiP, Pyj,..., PiP P (Pris Poj, Pipklep ,epp) 
alf khas 
= Pe rae mass Pip) P(Prilep,)--- P(Pipeler.p,) as 


FCP OR AYE EEDE AEEA A REA LETT AY. BP KRAP 处 


于 状态 n 时 的 一 个 特殊 值 。 式 (99) 的 最 后 一 步 再 次 运用 了 ( 非 连 接 的 ) 父 节点 统计 独立 的 假设 。 


O ”虽然 有 时 候 也 记 做 BEL(x) ,但 我 们 将 采用 这 种 记 法 ,因为 它 可 以 清楚 地 表明 依赖 关系 ,并 且 更 加 类 似 于 以 前 的 讨 
论 。 
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尽管 式 (99) 及 其 不 可 避免 的 记号 的 复杂 性 看 上 去 难免 有 些 吓人 ,但 它 实际 上 仅仅 只 是 由 
叶 斯 规则 的 一 个 逻辑 推论 。 为 了 清楚 起 见 .以 及 为 了 计算 x, 最 右 端的 每 一 项 PCPi lep TA 
成 是 PC Pi) ,也 就 是 第 一 个 父 节点 处 于 状态 ;时 的 概率 。 这 个 标记 表明 此 概率 依赖 于 刀 ; 处 的 
证 据 水 平 ,包括 来 自 它 的 父 节 点 的 。 但 为 了 便于 计算 X 处 的 概率 ,我 们 暂时 忽略 除了 X 的 父 
节点 和 子 节 点 以 外 的 其 他 市 点 的 依赖 性 。 由 此 重 写 式 (99) 如 下 ，: 
F] 
P(xie’) = 》 PPan) | |P (Pher) (100) 


ali Pmn f=] 


联 立 以 上 结论 SAP! PC ALC] SP as a — TL ,可 得 


IC] IPI 
Peiox][eeem| I PaPa f] Pen) 
l 


od 
Prec |x) Pixie”) 


总 之 , 式 (101) 表 明 节 点 X 取 某 个 特定 值 的 概率 等 于 两 个 因子 的 乘积 ,第 一 个 源 于 子 节点 
(它们 各 个 独立 的 似 然 函 数 的 乘积 ) ,第 二 个 是 父 节点 上 的 值 的 先 验 概率 在 所 有 可 能 的 状态 组 
合 上 的 总 和 ,以 及 给 定 那些 父 节点 值 时 的 x 变量 的 条 件 概率 的 总 和 。 最 后 的 值 必须 归 一 化 以 
RRB. 


例 4 鱼 分 类 的 置信 网 

再 次 将 注意 力 集中 在 鱼 分 类 问题 上 ,但 现在 想 利 用 更 多 的 信息 。 假 设 一 个 专家 构造 了 一 
个 简单 的 置信 网 如 下 图 所 示 。 其 中 节点 A 代 表 一 年 中 的 季节 ,可 有 四 个 值 :ai 一 冬 ,a* 一 春 ， 
aa =R =k TA B 代表 捕 鱼 的 地 理 位 置 :b, 二 北大 西洋 ,bs = 南大 西洋 。A 和 B 是 X 的 
父 节 点 , 夺 代 表 鱼 且 仅 有 两 种 可 能 的 值 :z 一 钾 鱼 ,zz 二 鲈鱼。 同样 ,专家 告诉 我 们 子 节 点 代表 
光泽 度 C, E. ci 一 黑 ,c 一 中 等 亮 ,c: 一 亮 ,以 及 厚度 D, H dı =Ẹ.d: =. 链接 (从 A.B 到 X 
RA X Bl C.D) avr MIAE Te Ee E E] td. OP an 


(101) 


oth dt oH 
SERIA 





鱼 分 类 例子 是 一 个 简单 置信 网 , 捕 鱼 季 节 同 捕 鱼 地 区 统计 独立 ,但 所 捕获 的 鱼 类 确实 依赖 
于 这 些 因素 ,并 且 , 鱼 的 宽度 和 光泽 度 又 依赖 于 鱼 的 类 别 本 身 。 

下 面 的 概率 矩阵 (这 里 通过 专家 给 出 ) 描 述 了 一 年 中 的 各 时 间 段 以 及 捕 鱼 区 域 对 鱼 类 的 影 
啊 。 
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双鱼 鲈鱼 
冬 0.9 0.1 a Fe 
0.3 0 7 0.65 0.35 
P(x;|aj) : = E 06 | P(x;|bj) : 二 (05 0.75 ) 
秋 0.8 0.2 


由 此 可 见 , 能 鱼 在 北部 地 区 的 冬天 和 秋天 比较 容易 找到 ,鲈鱼 在 南部 地 区 的 春天 和 夏天 比 
较 容 易 找 到 ,等 等 。 回 想 置 信 网 中 各 变量 是 离散 的 ,并 且 所 有 的 影响 可 以 用 概率 (而 不 是 用 概 
率 密 度 ) 来 表示 。 假 设 已 知 任意 一 个 当前 节点 的 某 一 特征 值 ,此 时 必定 已 有 一 些 鱼 , 因 而 每 一 
行 都 归 一 化 了 ,如 Plx lai) HPC: la) =l. 

假设 专家 告诉 我 们 子 节点 上 的 变量 的 条 件 概率 如 下 : 


亮 中 暗 | # 
«sf 10.33 0.33 0.34 «+e ( 04 0.6 
PCI) :能 鱼 ( 08 0.1 0.1 ) POX) : gigs ( 0.95 Dos) 


因而 能 鱼 的 光泽 度 取 值 范围 很 广 , 而 鲈鱼 的 主要 特点 是 光泽 仿 亮 ,并 且 宽 度 较 宽 。 
现在 来 考虑 使 用 这 一 置信 网 来 推导 鱼 分 类 的 问题 。 我 们 没有 识别 鱼 类 的 直接 信息 ,因而 
P(xzi) 二 P(xz) 二 0.5。 这 可 能 是 一 个 合理 的 起 点 ,表示 缺乏 识别 鱼 类 的 知识 。 现 在 的 目标 是 
估计 出 概率 PCr le), PCr: le) ,在 没有 任何 证 据 的 条 件 下 有 
P(x) = D P(x, ai, bj, Ck, di) 
ij.k,f 
= 》 P(ai)P(bj) Px lai, Bj) PCX) Peix) 
ijkl 
= 》 P(a)P(b) PO lai, bj) 
ij 


= (0.25)(0.5) 》 Px la;, bj) 
ij 


= (0.25)(0.5)(0.9+ 0.3 + 0.4 + 0.7 + 0.8 + 0.2 +0.1 + 0.6) 
= 0.5 


因此 有 P(xzi)== P(xs), 这 与 我 们 预期 的 一 样 。 
现在 开始 收集 每 一 节点 上 的 证 据 ,{es ,eg ,ec,en} ,并 假设 它们 之 间 相 互 独立 。 假 设 我 们 已 
知 现在 是 冬季 , 即 P(Cailes) 王 1, 对 于 ;一 2,3,4,P(ailes) 王 0。 假 设 我 们 并 不 知道 渔船 来 自 哪 
个 地 区 ,但 是 我 们 发 现 渔民 喜欢 在 南大 西洋 捕 鱼 ,那么 , BY 设 P(d, | eg) =0, 2, P(b, | eg ) 一 0， 8. ` 
通过 对 鱼 的 观测 发 现 其 光泽 较 亮 ,于 是 ,手工 设置 成 Plec| ao) =1,PCe|co) =0.5; 
P(eclcs) 王 0. 假设 由 于 遮挡 而 不 能 测 出 鱼 宽 , 因 而 置 Pleoldi)=Plen]d;). 
通过 式 (99) ,可 得 每 种 鱼 的 概率 估计 在 父 节点 尹 的 影响 下 其 展开 形式 为 
Pp (x1) & P(x lai, pi)P(al)P(DD + Pala, by)P(ai)P(b,) 
+ P(x laz, by) P(a2)P(by) + P(x laz, 52) P(a2) P(b2) 
+ P(x; laz, 61) P(a3)P(b1) + P(x jaz, 62) P(a3) P(bz) 
+ P(x;|a4, b))P(a4)P(b1) + P(x, las, 62) P(a4)P(b2) 
= 0.82 
类 似 的 计算 给 出 PP (zz ) 王 0. 18, 
现在 考虑 子 节 点 ,通过 式 (101) 得 
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Fe(x1) x Plecixi)P(ep |x) 
= [P(eclc)P(c |x) + P(ec|c2)P(c2|x1) + Plectcs)P(c3|x1)] 
x [P(ep|dy) P(di 1x1) + Plepld,)P(d; ix1)] 
= [(1.0)(0.33) + (0.5)(0.33) + (0)(0.34)] x [(1.0)(0.4) + (1.0)(0.6)] 
= 0.495 


一 个 类 似 的 计算 给 出 Pea.) « 0.85。 通 过 式 (96) 的 乘积 形式 Plr) x Pela) Pp (xi) 将 这 
些 估计 组 合 起 来 并 且 再 次 进行 归 一 化 ( 即 除 上 它们 的 总 和 ), 则 最 终 节 点 X 的 估计 结果 为 
(0.82)(0.495) _ 
P(x le) = (0.82)(0.495) + (0.18)(0.85) 0.726 
(0.18)(0.85) 


vey = CIDOB  _0274 
P(x2{e) (0.82)(0.495) + (0.18)(0.85) 


因此 根据 给 定 置信 网 上 所 有 证 据 , 我 们 得 出 最 可 能 的 结果 是 zi 三 鲈鱼 。 


一 个 给 定 的 置信 和 网 可 推断 出 所 有 的 未 知 变量 。 在 例 3 中 ,利用 了 捕 鱼 时 期 . 捕 鱼 地 点 以 及 
对 鱼 的 一 些 测试 信息 来 推断 鱼 的 类 别 ( 人 甸 鱼 或 鲈鱼 )。 同 样 的 网 络 也 可 用 来 推断 一 条 鱼 比 较 瘦 
或 颜色 较 暗 的 概率 ,根据 鱼 的 类 别 概率 、 捕 鱼 时 间 等 等 (习题 50)。 

当 某 个 分 类 器 所 利用 的 各 特征 间 的 依赖 关系 未 知 时 ,常常 采用 最 简单 的 假设 , 即 , 给 定 类 
别 下 各 特征 量 是 条 件 独 立 的 , 即 有 


d 
plowxlx) « | | po) (102) 
i=] 
实践 中 ,这 种 所 谓 的 “朴素 贝 叶 斯 规则 ”(naive Bayes rule) 或 “傻瓜 贝 叶 斯 规则 ”(idiot 
Bayes rule) 常 常 工 作 得 很 好 ,并 且 可 由 一 个 简单 的 置信 网 来 表示 。 
例 3 中 的 整个 置信 和 网 由 六 、 它 的 父 节点 、. 它 的 子 节点 组 成 。 我 们 只 需要 更 新 X 上 的 值 。 更 
一 般 的 情况 是 ,网 络 会 比较 大 ,有 许多 未 知 的 节点 。 这 时 候 , 我 们 可 以 随机 的 访问 各 个 节点 ,并 
更 新 其 概率 值 ,直到 得 到 一 个 稳定 的 概率 构 型 。 可 证 明 在 很 弱 的 条 件 下 ,此 过 程 将 收敛 到 使 整 
个 网 络 上 所 有 变量 相 容 的 状态 (习题 51) 。 
置信 网 在 越 来 越 多 的 复杂 问题 中 获得 应 用 ? 。 比 如 医疗 诊断 。 这 里 最 高 的 节点 (没有 父 
节点 的 节点 ) 代 表 一 个 基本 的 生物 体 如 一 种 病毒 或 细菌 的 出 现 , 中 间 层 的 节点 措 述 了 疾病 ,如 
流感 或 肺 气 肿 ,最 下 面 的 节点 描述 了 症状 ,如 发 烧 或 咳嗽 。 一 个 医师 将 测试 数据 输入 到 网 络 并 
寻找 最 可 能 出 现 的 疾病 或 原因 。 可 以 用 一 种 更 复杂 的 方式 来 使 用 此 网 络 , 即 自动 计算 和 测试 
哪个 未 知 变量 (节点 ) 对 揭示 疾病 类 别 最 有 效 。 


“2.12 复合 贝 叶 斯 决策 论 及 上 下 文 


再 次 考虑 绪论 中 介绍 的 分 离 两 种 鱼 的 分 类 器 的 例子 。 原 先 我 们 假定 出 现 的 鱼 的 类 别 状 态 序 
列 是 不 可 预知 的 ,因而 类 别 状态 被 看 成 一 个 随机 变量 。 在 不 抛弃 这 种 假定 的 前 提 下 ,让 我 们 考虑 
一 下 如 果 连 续 出 现 的 类 别 之 间 存 在 统计 相关 性 的 情况 。 可 想 而 知 ,如 果 可 以 找到 利用 此 统计 相 
关 性 的 方法 ,就 有 望 提 高 分 类 器 的 性 能 。 这 就 是 利用 ”上下文 ”信息 来 帮助 作 判决 的 一 个 例子 。 


© ”译注 :Microsoft Office 2000 中 那个 活 泌 的 卡通 助手 也 采用 了 贝 叶 斯 置信 网 技术 ,用 于 自动 地 感知 和 推 晰 用 户 目 前 
的 使 用 状况 。 
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关于 利用 上 下 文 信息 ;有 两 种 作法 多 少 有 些 不 同 。 其 一 是 ,等 待 n 条 鱼 出 现 并 同时 做 出 
个 判决 ;其 二 是 ,在 每 一 条 鱼 出 现时 做 一 次 判决 。 前 者 是 一 个 “复合 判决 ”(compound decision) 
问题 ,而 后 者 是 一 个 “ 序 贯 复 合 判 决 ”(sequential compound decision) 问 题 。 由 于 前 者 在 概念 
上 相对 简单 一 些 , 这 里 将 对 其 做 主要 讨论 。 

问题 的 一 般 曾 述 如 下 , 设 ==(w(1),…,w(n))' 是 一 个 表示 类 别 的 种 状态 的 向 景 , 其 中 
w(i) 取 c 个 值 w!;，,…,w. 中 的 一 个 。 设 P(@) 为 类 别 的 n 种 状态 的 先 验 概率 , 设 X= (xi，…* ,xX,) 
为 一 给 出 n 个 被 测 特征 癌 量 的 矩阵 ,其 中 x; 是 当 类 别 状 态 为 w%( 时 的 特征 回 量 ,最 后 , 设 
P(Xi®) 为 在 给 定 实 际 的 类 别 状态 集 @ 时 的 X 的 条 件 概 率 密 度 。 利 用 这 些 标记 可 知 o 的 后 验 
概率 为 | 
P(Xl@)P(@) p(XIw)P (wm) 

P(X) DY, P(XIw) P(w) 

通常 ,可 以 为 复合 判决 问题 定义 一 损失 和 矩阵 并 寻找 一 种 最 小 化 复合 风险 的 判决 规则 。 这 
种 理论 的 发 展 平 行 于 对 简单 判决 问题 的 讨论 ,可 推出 最 优 过 程 就 是 最 小 化 复合 条 件 风险 。 尤 
其 是 ,如 果 正 确 判 断 没 有 损失 而 所 有 的 错误 判断 都 有 相同 的 损失 ,那么 ,其 过 程 简化 为 计算 所 
有 @ 四 的 已 (@|X) ,寻找 使 后 验 概率 最 大 的 @。 

尽管 它 提供 了 理论 上 的 解决 方法 ,但 实际 中 P(@1X) 的 计算 非常 复杂 ,如 果 每 一 个 元 素 
w(z) 可 以 取 “ 个 值 中 的 一 个 ,那么 就 及 个 可 能 的 四 值 要 考虑 。 如 果 特 征 量 x 的 分 布 仅 取决 
于 与 之 对 应 的 类 别 w(z ,而 与 其 他 特征 量 或 其 他 类 别 无 关 , 那 么 可 以 使 问题 获得 一 些 简 化 。 
在 这 种 情况 下 ,联合 密度 p(X|1®) 仅 仅 是 各 元 素 密度 p(x;|w(i) ) 的 乘积 : 


P(w|X) = (103) 


p(Xlw) = | | plo) (104) 


i=l 
尽管 这 可 以 简化 计算 p(X1w) 的 问题 ,但 仍然 存在 计算 先 验 概率 P(w) 的 问题 ,此 复合 概 
率 是 复合 贝 叶 斯 决策 问题 的 中 心 , 因 为 它 反映 了 类 别 的 各 状态 的 相互 依赖 关系 。 因 此 假设 类 
别 的 各 状态 相互 独立 以 简化 计算 PCo) 问 题 的 作法 是 不 可 接受 的 。 并 且 , 实 际 的 应 用 通常 需 
要 某 种 方法 来 避免 对 所 有 的 @ 的 c" 种 可 能 值 都 计算 P(oixX)。 我 们 将 在 第 3 章 介绍 一 些 解 
决 此 问题 的 方法 。 


本 章 小 结 


贝 叶 斯 决策 论 的 基本 思想 非常 简单 。 为 最 小 化 总 风险 ,总 是 选择 那些 能 够 最 小 化 条 件 风 
险 RCa|x) 的 行为 。 尤 其 是 ,为 了 最 小 化 分 类 问题 中 的 误差 概率 ,总 是 选择 那些 使 后 验 概率 
Pl(w;|x) 最 大 的 类 别 。 贝 叶 斯 公式 允许 我 们 通过 先 验 概率 P(w;) 和 条 件 密 度 p(x|w;) 来 计算 后 
验 概率 。 如 采 对 在 模式 o: 中 所 做 的 误 分 的 惩罚 与 模式 wj 的 不 同 ,那么 在 做 出 判决 行为 之 前 
必须 先 根据 该 惩罚 函数 对 后 验 概率 加 权 。 

如 果 内 在 的 分 布 为 多 元 的 高 斯 分 布 , 判 决 边界 将 是 超 二 次 型 ,其 形状 和 位 置 取 决 于 先 验 概 
率 、 该 分 布 的 均值 和 协 方差 。 实 际 的 期 望 误 差 率 的 上 界 可 由 Chernoff 界 和 计算 上 较 简单 的 
Bhattacharyya 界 来 确定 。 如 果 某 输入 测试 模式 具有 丢失 或 遭 到 破坏 的 特征 量 , 必 须 通过 在 这 
些 特 征 量 上 积分 来 形成 边缘 分 布 ,然后 将 贝 叶 斯 决策 过 程 用 于 其 所 得 分 布 上 。 接 收 机 操作 特 
人 性 曲线 (ROC) 描 述 了 一 个 分 类 器 的 固有 和 不 变 的 特性 。 比 如 ,可 以 利用 它 确定 贝 叶 斯 误差 概 
率 。 

贝 叶 斯 置信 网 允许 设计 者 通过 拓扑 连接 的 方式 指出 模型 变量 间 相 互 依赖 和 相互 独立 关 
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系 。 当 变量 的 任意 子 集 被 箱 位 为 某 些 已 知 值 的 时 候 , 通 过 贝 叶 斯 推理 计算 ,每 一 个 节点 都 可 以 
获得 一 个 概率 值 。 表 明 条 件 相 关 性 的 参数 通常 是 人 为 设置 的 。 

对 许多 模式 分 类 问题 来 说 ,应 用 上 述 结论 的 主要 问题 来 自 条 件 概率 密度 p(x1w,) 未 知 的 
情况 。 在 某 些 情况 下 ,可 能 知道 这 些 密度 的 分 布 形式 ,但 是 不 知道 具体 参数 值 。 经 典 的 情况 是 
分 布 形 式 已 知 为 (或 者 可 假设 为 ) 多 元 正 态 分 布 , 但 其 均值 向 量 和 协 方差 矩阵 末 知 。 而 更 一 般 
的 情况 是 ,对 条 件 密度 的 信息 知道 的 更 少 , 这 时 候 就 必须 采用 一 些 对 密度 形式 的 假定 不 敏感 的 
分 类 算法 。 本 书 的 其 余 章节 的 大 部 分 精力 都 用 来 解决 各 种 这 样 的 问题 。 


文献 和 历史 评述 


模式 识别 中 的 贝 叶 斯 理论 由 于 其 权威 性 .一致 性 和 典雅 性 而 被 列 和 最 优美 的 科学 公式 之 
一 。 它 的 根基 当然 源 于 Reverend Bayes 本 人 [3], 但 他 是 在 相等 先 验 概率 的 情况 下 阐述 他 的 
理论 ( 式 (1)) 的 。 首 次 在 更 一 般 的 情况 (但 是 是 离散 情况 ) 下 阐述 它 的 人 是 拉 普 拉 斯 (Laplace) 
[29]。 在 模式 识别 和 一 般 的 决策 理论 中 可 以 推荐 一 些 现代 的 且 阑 述 得 比较 清楚 的 观点 [6,7， 
15,17,30,31]。 因 为 贝 叶 斯 理论 是 建立 在 公理 理论 的 基础 上 , 它 可 以 保证 定量 的 相 容 性 。 而 
其 他 一 些 分 类 方法 则 不 具备 。Wald 阐述 了 一 个 关于 这 些 主 题 的 非 贝 叶 斯 观点 ,值得 推荐 
[41]。 文 献 L[18] 探 索 了 贝 叶 斯 和 非 贝 叶 斯 方法 的 哲学 基础 。Neyman 和 Pearson 做 了 一 些 假 
设 检验 方面 的 最 重要 的 领头 工作 ,他 们 将 误差 概率 作为 基本 准则 [32j;Wald 通过 引入 损失 和 
风险 的 概念 扩展 了 该 准则 [40j]。 某 些 概 念 问题 常常 加 入 到 损失 函数 和 先 验 概率 的 使 用 中 。 实 
mE ,许多 统计 学 家 避免 使 用 贝 叶 斯 方法 ,一 部 分 原因 是 由 于 仅仅 只 作 一 次 判决 会 引起 许多 问 
题 , 另 一 部 分 原因 是 由 于 没有 一 种 合理 的 方式 来 确定 先 验 概率 值 。 这 些 原 因 在 典型 的 模式 识 
别 应 用 中 似乎 都 不 可 能 成 为 一 个 严重 的 缺点 :对 于 几乎 所 有 的 重要 的 模式 识别 问题 来 说 ,我 们 
将 获得 训练 数据 并 且 不 止 一 次 使 用 识别 器 。 由 于 这 些 原因 , 贝 叶 斯 方法 将 在 模式 识别 中 继续 
发 挥 着 巨大 的 作用 。 贝 叶 斯 方法 惟一 严重 的 缺点 是 计算 条 件 密 度 函 数 的 困难 。 多 元 高 斯 模型 
可 以 为 许多 真实 的 密度 提供 一 个 充分 的 近似 ,但 在 另外 的 很 多 问题 中 密度 形式 却 与 高 斯 形式 
相差 很 远 。 即 使 当 高 斯 模型 能 够 满足 要 求 时 ,在 下 一 章 中 我 们 将 看 到 ,直接 从 样本 数据 中 估计 
未 知 参数 并 不 是 一 件 简 单 的 事 。 接 下 来 的 各 章 中 将 讨论 当 高 斯 模型 不 合适 的 时 候 我 们 该 做 些 
什么 。 

Chow 是 最 早 将 贝 叶 斯 判决 理论 用 于 模式 识别 中 的 人 之 一 L12], 后 来 他 建立 了 误差 率 和 
拒绝 率 之 间 的 基本 关系 [13]。 正 态 密度 的 误差 率 在 文献 L20j 中 进行 了 探索 ,Chernoff 和 
Bhattacharyya 界 分 别 首次 在 文献 L11] 和 [L8j 中 提出 ;大 量 的 统计 试验 中 对 这 些 错误 界 进行 了 
探索 ,如 文献 L[19]。 贝 叶 斯 误差 概 率 的 边界 积分 的 数值 逼近 出 现在 文献 [2j 中 (作为 我 们 的 一 
道 课 后 习题 ) Neyman 和 Pearson 也 在 给 定 约束 条 件 下 对 分 类 做 了 研究 L32]。 多 元 正 态 分 
布 的 极 小 化 极 大 估计 器 的 分 析 在 文献 [4,5] 和 [16] 中 提出 。 信 和 号 检测 理论 和 接收 机 操作 特性 
在 文献 [22] 中 做 了 完整 的 探索 ;以 实验 心理 学 为 研究 目标 的 一 个 简单 的 观点 在 文献 [39] 中 提 
出 。 对 丢失 特征 问题 的 讨论 紧 接着 Ahmad 和 Tresp[1j 的 工作 ,然而 关于 丢失 特征 的 权威 性 
的 书 , 包 括 除 在 这 里 讨论 以 外 的 大 多 数 内 容 , 是 文献 L35] 。 

贝 叶 斯 置信 网 的 起 源 可 以 回溯 到 文献 L43] ,一 个 透彻 的 理论 观点 可 以 在 文献 L10j 中 找到 ; 
几 本 非常 好 的 现代 的 书 [27,33j 和 教材 [9j 可 推荐 给 大 家 。 一 本 关于 置信 网 理论 的 重要 著作 以 
及 其 在 医疗 诊断 中 的 应 用 见 文献 [25]。 有 关机 器 故障 诊断 的 一 个 总 结 性 的 工作 在 文献 L24j 中 
给 出 。 尽 管 我 们 主要 集中 讨论 有 向 无 环 图 ,但 置信 网 有 着 更 广泛 的 用 途 , 甚 至 允许 有 环 或 任意 
的 拓扑 结构 。 这 是 一 个 把 我 们 引入 更 广 的 领域 的 话题 ,在 文献 L27j 中 做 了 讨论 。 
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焙 是 信息 论 中 的 一 个 重要 的 基础 概念 136] , 正 态 分 布 和 灶 的 关系 在 文献 L38j 中 做 了 探索 ， 
需要 复习 信息 论 L14」、 线 性 代数 [28j]、 微 积分 学 L37,44j]、 概 率 论 L34j、 变 分 法 和 拉 格 表 日 弱 子 


[21] 的 读者 ,可 以 参考 它们 以 及 附录 中 所 列 的 文献 ， 


2.1% 

1. FE PYAR HAP , AN RR BS a A TR eT AE RA E EE 
的 , 当 用 式 (5) 计 算 总 误差 率 时 ,这 种 形式 的 条 件 误 差 率 实际 将 导致 一 个 不 连续 的 被 积 
PR 3X 


Ca) 证 明 对 任意 密度 IAA Plerror|z)=2P(o, |x Plo, | DMR, AD 
获得 总 误差 率 的 上 界 。 


(b) 证 明 如 果 对 任 给 <2, $ Plerror|x)=aP lo |x) P(e, |x), ABAGA BERGE 


积分 给 出 一 个 误差 率 的 上 界 。 | 
Cc) 类 似 地 ,证 明 可 以 用 PCerror| x)= PC, |xz)P(w,|xz) 获 得 一 个 总 误差 率 的 下 界 。 
Cd) 证 明 如 果 用 对 任 给 pb>1, 使 用 P(error|xz)= 二 BP(w |z)P(ws|x), 那 么 将 不 能 保证 
此 积分 可 以 得 到 一 个 误差 率 的 下 界 。 


2.2 节 


2. 


e127 41/8; ; 

(a) 写 出 每 个 密度 的 解析 表达 式 , 即 ,对 任意 的 a; 和 正 的 2;, 将 每 个 函数 归 一 化 。 
Cb) 计算 似 然 比 ,作为 4 个 变量 的 函数 。 

(c) 绘 出 在 4 一 0,0 一 ],az 一 1 20 一 人 时 的 似 然 比 p(xlo,)/pCclo, A AAA. 


2.3% 


CD 


. 考虑 0-1 损失 郑 数 的 极 小 化 极 大 准则 , 即 Mt = 222 =0 Bar =a 二 1。 


Ca) 证 明 在 这 种 情况 下 判决 区 域 将 满足 


J poten ax = f pixi dx 


及: Ry 


Cb) 此 解 是 否 总 是 惟一 的 ? 如 果 不 是 ,请 构造 一 个 简单 的 反例 。 


. 考虑 两 类 分 类 问题 的 极 小 化 极 大 准则 。 


(a) 写 出 推导 式 (23) 的 步骤 。 

Cb) 解释 为 什么 作为 先 验 概率 Plo, ) 的 函数 的 总 贝 叶 斯 风险 一 定 要 下 凹 ? 如 图 2-4 所 
小 。 

(O 假设 有 一 维 高 斯 分 布 bzlw) 一 Nd 一 1,2, 但 先 验 概率 完全 未 知 ,利用 极 
小 化 极 大 准则 在 0-1 风险 下 找到 最 优 决策 点 x* ,以 wo, 的 形式 表示 。 

(dD 对 于 (c) 中 所 得 的 决策 点 ,总 极 小 化 极 大 风险 是 多 少 ?” 用 误差 消 数 erf(，) 的 形式 
表示 此 风险 。 

Ce) 假设 p(x|a,)~N(0,1) A plrlo,)~N(1/2,1/4), Æ 0-1 风险 下 找到 c” 和 总 的 
极 小 化 极 大 损失 。 

(D 假设 prlod 一 NG IDH p(xziw,)~N(6,1), 不 做 任何 显 式 的 计算 ,确定 极 小 化 





OD. 


全) 


—!] 
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极 大 准则 下 的 z* ,并 说 明 厚 因 。 
推广 极 小 化 极 大 判定 规则 ,使 其 可 用 来 识别 3 类 模式 ,它们 具有 三 角形 密度 形式 。 形 
RAF: 
« — |x — pil) /8? |x — pil < ô; 
其 他 
其 中 人 >>0, 为 分 布 宽度 的 一 半 (=1,2,3)。 为 了 方便 , 设 扣 < 赂 < ADRESS 
对 6; 作 些 小 的 简化 假设 ,并 回答 下 列 问题 : 
(a) 在 0-1( 分 类 ) 损 失 条 件 下 找 出 最 优 决策 点 xz? 和 x2 ,用 先 验 概率 Po) HER E 
宽度 值 来 表示 。 
(b) 对 此 三 角形 分 布 形 式 ,将 极 小 化 极 大 决策 规则 推广 为 有 两 个 决策 点 x? 和 x2 。 
Co) Bie: 6} ={0,1},{0.5,0.5},{1,1} ,找到 这 种 情况 下 的 极 小 化 极 大 决策 规则 ( 即 
xi 和 Xz). 
Cd) 对 (Cc) 而 言 ,; 极 小 化 极 大 风险 是 多 少 ? 


p(x|wi) = T (ki, ĉi) = 


.考虑 两 个 单 变量 正 态 分 布 plelo) ~N), H PCOw)==1/2(1 二 1,2) 的 Neyman- 


Pearson 准则 ,在 0-1 损失 下 , 且 为 了 方便 设 ps >. 

(a) 假设 当 一 样本 实际 属于 wi , 却 被 认为 是 ws 时 的 最 大 可 接受 的 误差 率 为 E, ,用 以 上 
给 定 的 变量 确定 单 点 判决 边界 。 

b) 对 于 此 边界 ,将 w 错 分 为 由 的 误差 率 是 多 少 ? 

(c) 在 0-1 BAe F 总 误差 率 是 多 少 ? 

Cd) 将 你 的 结论 应 用 于 特殊 情况 :p(x|lw)~N( 一 1， 1 ) 及 plzl|e)~N1,1),8 
E, =0. 05. 

Ce) 将 你 的 结论 与 贝 叶 斯 误差 率 ( 即 没有 Neyman-Pearson 条 件 ) 作 比较 。 


. 考虑 两 个 一 维 柯 西 分 布 的 Neyman-Pearson 准则 : 


] I 
p(x|wi) = ab 14 (Say 1=1,2 
在 0-1 REHAT, HH SE. Ka. >a, RE OA], BRAS. 
(a) 假设 当 一 样本 实际 属于 o 却 被 误 认 为 ws 的 模式 分 类 时 的 最 大 可 接受 误差 率 为 
E, ,用 所 给 变量 确定 判决 边界 。 
Cb) 对 于 此 边界 ,将 ws 错 分 为 wi 的 误差 率 是 多 少 ? 
(c) 在 0-1 损 失 率 下 的 总 误差 率 是 多 少 ? 
(d) 将 你 AY ait 华 应 用 于 特殊 情况 b= 1 H a = l,a: =1 H E = 0. l. 
Ce) 将 你 的 结论 与 贝 叶 斯 误差 率 ( 即 没有 Neyman-Pearson 条 件 ) 作 比较 。 


8. 设 一 个 一 维 的 两 类 问题 ,条 件 密度 为 第 7 题 中 所 给 的 柯 西 分 布 。 


(a) 通过 直接 积分 ,证 明 此 分 布 是 归 一 化 的 。 

(b) 设 Pla) =P), WEBE r= 《ai 十 as)/2, 则 PC |£) = pC |), tE gE, A 
管 5 为 多 少 , 最 小 误差 判决 边界 是 两 个 分 布 的 峰值 之 间 的 中 点 。 

(c) 绘 出 在 ai =3,a: =5 K b=1 情况 下 的 PCl |z) 的 图 。 

(d) 解释 当 ZX-> 一 co 及 XxX 一 十 co 时 Plo |x) Al PCa, | x) an. 


9. 使 用 第 7 题 中 给 出 的 条 件 密度 , 设 类 别 的 先 验 概率 相等 。 


(a) 证 明 最 小 误差 概率 为 





ca 








1 1 -| 
P (error) = -~ — —tan | 
2 x 





aA 


(b) 绘 出 它 随 |a 一 aa |/b 变化 的 曲线 图 。 
(Cc) Perror) 的 最 大 值 是 多 少 ? 在 什么 条 件 下 可 以 达到 此 值 ” 试 说 明 原 因 。 
10. 考虑 对 于 一 个 一 维 的 两 类 问题 ,采用 下 列 判 定 规 则 ;如果 ac OWA A w ,否则 判 为 


(a) 证 明 此 规则 下 的 误差 概率 为 
8 co 
P (error) = P (wi) | p(x|@,) dx + P(w) | P(x|@2) dx 
一 Co 8 


(b) 通过 微分 运算 ,证明 最 小 化 Plerror) 的 一 个 必要 条 件 是 8 满足 
pOjwi) P(w) = p01w2)P (w2) 


Cc) 此 式 可 以 惟一 确定 9 吗 ? 
(d 给 出 一 个 例子 ,说明 满足 此 式 的 一 个 2 事实 上 有 可 能 使 误差 概率 最 大 化 。 
11. 假设 我 们 将 确定 性 的 判别 函数 a(x) 用 一 个 随机 规则 替换 ,也 即 当 观察 x 时 所 采取 的 
行为 a; 是 随机 的 ,其 概率 为 PCa;|x)。 
Ca) 证 明 所 得 的 风险 为 


R= J [DD Reais) Pot) |p (x) ax 
ix] 


Cb) 证 明 与 最 小 条 件 风 险 R(a;|x) 相 对 应 的 行为 a; 就 是 选择 Po |x=. H HE WE R 
随机 扰动 最 优 判定 规则 将 得 不 到 任何 好 处 。 
Cc) 我 们 可 以 从 随机 扰动 一 个 “次 优 ” 的 判定 规则 中 得 到 好 处 吗 ? 试 解 释 原 因 。 
12. 设 ws (xX) 为 类 别 状 态 , 此 时 对 所 有 的 iC(i==1,…,c), 有 Plom X) ZP lx). 
(a) GEAR Plwm |x) 宇 1/c。 
(b) 证 明 对 于 最 小 误差 率 判 定 规 则 ,平均 误差 概率 为 


P(error) = 1 — J P (Wmax |X) p(X) dX 


(c) 利用 这 两 个 结论 证 明 Plerror)<(c—1)/c. 
(d) 描述 一 种 情况 ,在 此 情况 下 有 PCerror) =(c—1)/c. 

2.4 节 

13. 在 许多 模式 分 类 问题 中 ,可 以 将 某 个 模式 分 到 c 类 中 的 某 一 类 ,也 可 以 由 于 其 不 可 分 
性 而 拒绝 将 其 分 到 任何 类 别 。 如 果 拒 绝 的 开销 不 太 高 , 则 拒绝 是 一 个 可 行 的 措施 。 设 


0 i=j ij=ly--ye 
A(ajlo))={ A, i=c+l 
As 其 他 


其 中 X, 是 当选 择 第 < 十 1 种 行为 ( 即 拒绝 ) 时 的 损失 ,A, 是 产生 任何 替代 错误 时 的 损失 ， 
证 明 ,如 果 对 任意 1 有 Pla OZP lD, H Peal D> a/a WFA wi ,否则 拒 
绝 ,此 时 可 获得 最 小 风险 。 如 果 , 二 0, 将 会 怎样 ? BUR, ass ORES EE? 

14, 考虑 有 拒绝 决策 行为 的 分 类 问题 。 
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(a) 利用 第 13 题 的 结论 证 明 下 面 的 判别 函数 对 于 此 问题 是 最 优 的 : 


p(xlwi) P (w;) i=1,---,¢ 
g;(X) = hh y p(x|@;) P(@,;) i 二 C+]1 
j=l 


Cb) 绘 出 此 判别 函数 及 其 判决 区 域 在 具有 如 下 特性 的 两 类 一 维 情况 下 的 图 形 : 
e p(xja,)~N1,1) 

° p(x|a.)~NC—1,1) 

。 P(w,)=PCw,)=1/2 

“入 /一 174。 

Co) 定性 地 描述 随 着 /4X, 从 0 增加 到 1 ,将 会 怎样 ? 
(d) 在 具有 如 下 特性 的 情况 下 重复 (c): 

e p(xr|o,)~NC1,1) 

. p(x}un)~N(0,1/4) 

e P(w,)=1/3, P(e) =2/3 

* Ar/A: =1/2。 


2.5 节 


15. 


17. 


18. 


考虑 一 个 d 维 超 球面 ,其 体积 有 如 下 情形 , 试 证 明 式 (47) 。 

(a) 在 一 条 分 割 线 (d=1) 情 形 下 证 明 此 式 。 

(b) 在 一 个 盘面 (d= 二 2) 情 形 下 证 明 此 式 。 

Cc) 在 适当 的 约束 下 对 整 条 直线 积分 获得 盘面 的 体积 。 

(d) 考虑 一 个 一 般 的 d 维 超 球面 ,对 其 体积 积分 以 获得 一 个 d+] 维 超 球 面 的 体积 公 
式 ( 包 含 gamma KAHE rC. )). 

Ce) 应 用 此 式 , 通 过 对 一 个 较 低 的 偶数 维 空间 中 的 超 球 面 的 体积 积分 ,以 获得 一 个 奇 
数 维 空 间 中 的 超 球 面 的 体积 ,从 而 证 明 奇 数 维 空间 中 的 式 (47)。 

(f) 重复 以 上 问题 ,求偶 数 维 空间 中 的 一 个 超 球 面 的 体积 。 


. 为 式 (47) 中 的 d 维 超 球面 的 体积 公式 作 如 下 的 推导 : 


Ca) 陈述 并 说 明 VARR. 

Cb) 根据 15 题 中 所 列 的 一 般 步 骤 ,通过 两 次 积分 求 出 Vi 的 函数 Vaio 

Cc) 假设 Va 的 函数 形式 对 于 所 有 奇数 维 情形 下 是 一 样 的 (同样 偶数 维 也 一样 ), 利 用 
你 的 积分 结论 确定 d 为 奇数 时 Vs 的 公式 。 

Cd) 利用 中 间 的 积分 结果 ,确定 4 为 偶数 时 的 Vao 

Ce) 解释 为 什么 必须 将 奇数 维和 偶数 维 时 Va 的 图 数 形 式 视 为 不 同情 况 对 待 。 

推导 式 (46), 即 一 个 协 方差 为 马 的 高 斯 分 布 且 具有 恒定 Mahalanobis 距离 r( 式 (45)) 

的 超 椭 球 面 的 体积 公式 。 

考虑 两 个 一 维 正 态 分 布 :NCm oa) 和 NI ,2), 分 别 从 这 两 个 正 态 分 布 中 选取 两 个 随 

机 样本 zi ,zs ,计算 它们 的 和 r =r 十 zz。 重复 以 上 步骤 考虑 以 下 问题 : 

(a) 考虑 zs 的 分 布 , 证 明 zs 具有 所 必须 的 统计 特性 ,因而 其 分 布 是 正 态 的 。 

(b) 分 布 的 均值 ps 是 多 少 ? 

O 方差 G 是 多 少 ? 


(d 对 于 两 个 多 维 分 布 , 即 NG 5), NG: 5) ,重复 以 上 问题 。 








96 


19. 


2 


© 


2 


— 


2 
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从 炳 的 定义 ( 式 (37)) 开 始 , 推 导 最 大 粹 分 布 的 一 般 方程 ,假定 其 约束 条 件 的 一 般 形式 
Wn F: 


[ eco dx =a:, k=1,2,---.q 


Ca) 利用 拉 格 朗 日 待定 因子 ,和 2 ce ag HES A MAY BH Best: 


q q 
H, = 一 | p{x) [ p(x) 一 > si dx 一 $ 和 eax 
k=0 k=0 


解释 对 所 有 xz ATA a =1 及 B(x) =1 成立。 
(b) 根据 Hs XT pCORS ORR RRA OBER RK A 


q 
p(x) = exp bs Andy (x) 一 J 
k=0 


其 中 gq 十 1 FBR E M Ag ARAME o 


.利用 19 题 的 最 后 绪论 回答 下 列 问 题 : 


(a) 假设 仅 知 道 一 个 分 布 只 在 域 委 z 委 z。 LÆRK. ERRAR a EER A 
是 均匀 的 , 即 


1/|xu — xil] x1 SX SX, 


D(x) ~ U (xi, Xu) = | 0 其 他 
(b) 假设 仅 知道 一 个 分 布 只 对 x 宇 0 REFR, ABA ue PERRO A 


p(x) = | 6 nee ‘tae 
Cc) 现在 假设 仅 知道 分 布 是 正 态 的 ,具有 均值 wk 和 方差 o? ,因而 根据 19 BK HD Hh 
必然 具有 如 下 形式 ， 
p(x) = explo — 1 二 入 1X 十 4x7] 
写 出 3 个 关于 vo ,X 和 Xz MARAE BE 1. EB ae AO TO — 
高 斯 分 布 , 即 
—(x — u)’ 


1 
pox) = exp | E | 





. 3 种 分 布 一 一 高 斯 分 布 均 分 分 布 以 及 三 角 分 布 (对 照 第 5 题 ) 一 一 均 具 有 0 均值 和 标 


HERE of” "AFR OSDHARFLRENHH. 


. 计算 多 维 高 斯 分 布 p(x) ~N EH, D) AH 
23. 


考虑 三 维 正 态 分 布 p(x|w) ~N(B, ZE) ,其 中 


l 100 
p=] 2 RY=} 0 5 2 
2 0 2 5 


Ca) RA X= (0.5,0,1)' 处 的 概率 密度 。 
Cb) 构造 白化 变换 A, ( 式 (44)) ,计算 分 别 表示 本 征 向 量 和 本 征 值 的 矩阵 唱和 A; 接 下 
来 ,将 此 分 布 转换 为 以 原点 为 中 心 协 方差 矩阵 为 单位 阵 的 分 布 , 即 p(x1w) ~ 
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N(O.D, 

Cc) 将 整个 同样 的 转换 过 程 应 用 于 点 x 以 产生 一 变换 点 X,。 

(d 通过 详细 计算 ,证明 原 分 布 中 从 x 到 均值 & 的 Mahalanobis 距离 与 变换 后 的 分 布 
中 从 x, 到 0 的 Mahalanobis 距离 相等 。 

Ce) 概率 密度 在 一 个 一 般 的 线性 变换 下 是 否 保 持 不 变 ? 换 句 话说 ,对 于 某 线性 变换 T， 
是 否 有 pal N(M, £))=p(T'x | N(T'u,T'ET))? 解释 原因 。 

Cf) 证 明 当 把 一 个 一 般 的 白化 变换 A, = OAT? 应用 于 一 个 高 斯 分 布 时 可 保证 最 终 分 
布 的 协 方差 与 单位 阵 工 成 比例 ,检查 变换 后 的 分 布 是 否 仍然 具有 归 一 化 特性 。 

24. 考虑 多 变量 正 态 密度 ,其 中 均值 为 上 po =0 及 o: 二 中 , 即 协 方差 矩阵 是 一 对 角 阵 : 
X= diag (oj ,0 ,. 05), | 
(a) 证 明证 据 因 子 为 





Cb) 绘 出 并 描述 等 密度 曲线 。 
Cc) 写 出 从 xX 到 的 Mahalanobis 距离 表达 式 。 

2.6% : 

25. 5G BUA ZK (59) HE ESR (60) ~ (65) BY ER . 

26. 设 对 于 i= 1,2, palo) ~N DEAK d 维 问题 中 具有 相同 的 协 方差 ,而 有 任意 的 
均值 和 先 验 概 率 ,考虑 平方 Mahalanobis E BS 


r? = (x — pi)’ h(x — pi) 
Ca) 证 明 r 的 梯度 为 
Vr? = 227! (x 一 fri) 


(b) 证 明 某 一 给 定 通 过 的 直线 上 的 任意 一 点 处 的 梯度 有 一 指向 相同 的 方向 。 此 方 
向 一 定 与 该 直线 平行 吗 ? 
Cc) DEV AV 指 问 与 从 jp 到 pws 的 直线 相反 的 方 癌 。 
(d) 证 明 最 优 分 割 超 平面 ,与 等 密度 超 椭 球面 相 切 , 切 于 该 超 平面 分 割 从 a 到 pz 的 
直线 的 点 处 。 
Ce) 判断 正 误 ; 对 于 包含 具有 任意 均值 和 协 方差 的 正 态 密度 的 两 类 问题 ,P(w)= 
P(《w;) 二 1/2, 贝 叶 斯 判决 边界 由 一 系列 距 各 自 样 本 均值 等 Mahalanobis 距离 的 点 
组 成 。 解 释 之 。 | 
JRRARARER RHA DAS HAAR SAME M:N DANG. ED). A 
验 概率 Pw, ) 和 Pw, ) 的 形式 陈述 贝 叶 斯 判决 边界 不 “经 过 ?两 个 均值 之 间 的 条 件 。 
28. 两 个 随机 变量 x Aly, WR p(x, ylw) = 二 p(xjw)ply1w), 则 称 它们 “统计 独立 ”。 
Ca) 证 明 如 果 zj; 一 与 了 ;一 统计 独立 (对 于 ix) AARC) PEW 0 =0, 
Cb) 证 明 对 于 高 斯 情况 上 面 命题 的 道 命题 也 是 正确 的 。 
Co) 通过 反例 证 明 在 一 般 情况 下 该 逆 命 题 不 正确 。 
29. 图 2-15 显示 了 两 个 三 维 高 斯 分 布 的 判决 边界 有 可 能 是 一 条 线段 ,通过 分 析 如 下 的 一 
个 简单 的 一 维 情况 ,说 明 这 是 如 何 产生 的 : | 


2 


—] 
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(a) 考虑 两 个 一 维 高 斯 分 布 ;它们 的 均值 不 等 ,方差 不 等 ,解释 为 什么 在 这 种 情况 下 总 
是 可 以 找到 某 种 先 验 概率 使 得 判决 边界 为 一 个 点 。 
Cb) 利用 以 上 结论 解释 两 类 三 维 高 斯 分 布 情况 下 如 何 产 生 一 条 线段 作为 分 割 边界 。 
30. 考虑 d 维 空 间 中 两 类 问题 的 贝 叶 斯 判决 边界 。 
(a) 证 明 对 于 d 维 空间 中 的 任意 的 二 次 曲面 ,存在 着 这 样 的 正 态 分 布 (xlwi) 一 
NOB 了) 以 及 先 验 概率 PCw;),i==1,2, 可 以 将 此 二 次 曲面 作为 它们 的 贝 叶 斯 判 
决 边界 。 
Cb) 如 果 先 验 概 率 保 持 不 变 , 并 且 非 零 , 比 如 Po) = P(w,) =1/2,(a) PR RHE 
正确 ? | 
2.74% 
31. 对 于 两 类 一 维 问题 , 设 plera) ~N), H Plw,)=P(w,)=1/2, 
(a) 证 明 最 小 误差 概率 为 


1 
2 
P, = fe /2 du 
° J/ 20 
a 


其 中 a= |u — y |/ 20). 
Cb) 利用 不 等 式 


l —a?/2 


Oo 
1 2 
Pe = = fe tars e 
° J 20 J 21a 
a 


证 明 当 |jys 一 pj 1/o FERH, P. 趋向 于 零 。 
.对 于 两 类 d 维 问题 , 设 palo) ~N D, H. Po ) 一 PCw) 一 1/2。 
Ca) 证 明 最 小 误差 概率 为 





[> 


3 


] oO 
2 
P, = = fe /2 du 
~ 20 


其 中 as | 一 || /(20), 
(b) + p, =0, H. M = (4 ya)’ E0. AA 31 题 的 不 等 式 证 明 , 当 维 数 d 趋 于 无 穷 
NP. ATF. 
Cc) 解释 此 结论 的 意义 。 
.假设 我 们 精确 的 已 知 d 维特 征 空间 中 的 两 个 任意 的 分 布 p(x|w;) 以 及 先 验 概率 
P(w;). 
Ca) 证 明 如 果 我 们 先 将 该 分 布 映射 到 一 个 低 维 空间 中 然后 再 做 分 类 ,实际 的 误差 率 不 
可 能 减少 。 
(b) 尽管 如 此 ,说 明 为 什么 在 实际 的 模式 分 类 应 用 中 ,我 们 可 能 不 希望 包含 任意 高 的 
特征 维 数 。 


3 


Oo 


2.8% 

34. 如 果 在 一 个 两 类 问题 中 的 密度 分 布 形式 同 高 斯 分 布 相差 很 大 ,通过 考虑 下 面 的 一 维 情 
况 ,证 明 Chernoff 界 和 Bhattacharyya 界 不 可 能 有 很 大 的 意义 。 考 虑 均值 和 方差 相等 
(此 时 Chernoff $M Bhattacharyya 界 相 等 ) ,但 仍然 具有 宽 范 围 的 贝 叶 斯 误差 率 的 情 
沈 。 为 了 明确 起 见 , 假 设 分 布 具有 均值 由 天 一 4 及 Ap 一 十 由, 且 叶 一 亚 一 广 。 
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3 


《用 


3 


oP) 


3 


一 


38. 


(a) 利用 正文 中 的 公式 计算 Chernoff 和 Bhattacharyya 误差 界 。 

(bO 设 两 个 分 布 均 为 高 斯 分 布 ,计算 中叶 斯 误差 率 ,用 一 个 误差 薄 数 erf(。) 的 形式 表 
示 ,， 并 且 要 求 得 到 一 个 数值 结果 。 

Cc) 现在 考虑 另外 一 种 情况 ,ww 类 的 密度 分 布 的 一 半 集 中 在 点 = 一 24 处 ,一 半 在 点 
x=0 处 ;同样 ,ws 类 的 密度 分 布 的 一 半 集 中 在 z= 十 2p 处 ,一 半 集 中 在 z= 二 0 处 。 
证 明 均 值 和 方差 保持 不 变 , 但 此 时 误差 率 为 0.5。 

(d) 接着 考虑 另外 一 种 情况 ,w, 类 的 密度 分 布 的 一 半 集 中 在 z= 一 2 附近 ,一 半 集 中 
在 二 一 e 处 ,其 中 是 一 无 限 小 的 正 数 ;同样 ,w; 类 的 密度 分 布 的 一 半 在 z 一 十 2U7 
附近 ,一 半 在 z 王 十 6 处 。 证 明 通 过 使 充分 小 ,均值 和 方差 分 别 可 以 任意 接近 u 
和 yp*。 证 明 此 时 贝 叶 斯 误差 率 为 0。 

Ce) 比较 (b)、(c) 和 (d) 中 的 误差 率 与 (a) 中 的 Chernoff 和 Bhattacharyya F ,并 解释 为 
什么 当 分 布 与 高 斯 相差 其 远 时 这 些 上 界 就 没有 多 大 用 处 了 。 


. 证 明 对 于 非 病 态 的 情况 ,如 果 在 一 贝 叶 斯 分 类 器 中 对 于 多 维 高 斯 分 布 而 言 包 含 更 多 的 


特征 维 数 , 那 么 Bhattacharyya 界 将 减 小 。 证 明 的 方法 如 下 : 设 Py (Pl(w), ,及 ， 

Pw.) ,Ha ,zs ) 或 简单 地 说 Pas H Bhattacharyya 界 , 如 果 考 虑 维 数 限 制 为 以 维 。 

Ca) 利用 协 方差 矩阵 的 一 般 性 质 ,证明 当 维 数 d 增加 到 4d 十 1 时 , 式 (77) 的 k(1/2) 也 随 
之 增加 ,因此 误差 边界 将 减 小 。 

Cb) 解释 为 什么 这 个 一 般 结论 依赖 或 不 依赖 于 维 数 的 增加 。 

Cc) 在 什么 样 的 病态 情况 下 误差 边界 并 不 减少 , 即 Pari = Pa? 

(d 有 没有 可 能 实际 的 误差 率 一 一 即 不 仅仅 是 边界 可 以 随 着 维 数 的 增高 而 增加 ? 

Ce) 证 明 对 于 非 病 态 分 布 当 d 一 co 时 ,Ps 一 0。 说 明 在 病态 情况 下 此 极限 不 存在 。 

Cf) 假定 对 于 包含 某 特定 维 数 的 情况 下 Bhattacharyya 界 减 小 ,是 否 可 以 肯定 实际 的 
误差 率 也 减 小 ?为 什么 ? 





.通过 下 列 步 又 由 式 (73) 推 导 式 (74) 和 (75) : 


(a) 将 正 态 分 布 代入 积分 式 中 推出 与 x 有 关 和 与 x 无关 的 项 。 
(b) 分 解 出 积分 式 中 与 x 无 关 的 项 因子 。 
(c) 对 与 x 有 关 的 项 进行 积分 。 


.考虑 二 维 的 两 类 分 类 问题 ,其 中 


l 
P(xXon ~ N0. D, p(xla.) ~ N (0) 1) 


H P(@,) = P(w,)=1/2, 

(a) 计算 贝 吐 斯 判决 边界 。 

(b) 计算 Bhattacharyya RER, 
(c) 对 同样 的 先 验 概率 ,但 


20.5 | 54 
co) ae 人 (人 


重复 以 上 步 又。 
无 需 首 先 检 测 Chernoff 界 ,推导 Bhattacharyya 误差 界 。 步 又 如 下 : 
(a) 如 果 a Mb 非 负 , 直 接 证 明 min[a ,的 委 Vab. 
(b》 由 此 证 明 一 个 两 类 中 叶 斯 分 类 器 的 误差 率 必定 满足 
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39. 


40. 


4 


pa 


42. 


E #2 Ě 


P (error) < y P(@i)P(@) p < p/2 
其 中 2 是 所 谓 的 Bhattacharyya 系数 


p= 人 LPG p(X|w2) dx 


利用 信号 检测 理论 ,以 及 正文 中 所 述 的 符号 和 基本 的 高 斯 假设 ,回答 下 列 问题 。 

(a) WEB Pz > x" |zxE€Ew) 和 P(x 之 x* 1zEol) 一 起 ,惟一 确定 判决 能 力 dd’. 

Cb) 使 用 错误 函数 erf(。) 以 击 中 率 和 虚 警 率 的 形式 表示 d 。 如 果 Pla >" |xEw)= 
0.8 且 PCz>z |xCw,) =0.3,fhH d 的 值 ; 如 果 Piro’ |xEw)= 二 0.7 日 
P(x>x* |x€w) 二 0.4, 重 新 估计 4 的 值 。 

(O 假定 高 斯 假设 是 合理 的 ,计算 Cb) 中 两 种 情况 的 贝 叶 斯 误差 率 。 

(d 利用 一 个 普通 的 单线 方式 计算 确定 哪 种 情况 具有 较 高 的 d : 
情况 A:P(z>z |xEw)=0.8, P(r>x* |zEw,)=0.3 
情况 B:P(x>x* |rEwa)=0.9, Plr>x* |xEw,)=0.7 
说 明 你 的 推理 。 

假设 在 我 们 的 信号 检测 框架 中 有 两 个 高 斯 分 布 ,但 具有 不 同 的 方差 (如 图 2-20), 即 对 

Ferm RGA. A pelar) ~N, DR plrlo,)~N Ce 03), FEAR F 

所 得 出 的 ROC 曲线 将 不 表 是 对 称 的 。 

Ca) 假设 在 此 非 对 称 的 情况 下 修改 判决 能 力 的 定义 为 d==|p 一 |/Vo.o: 。 通 过 非 平凡 
的 反例 或 者 通过 分 析 来 证 明 不 可 能 单单 基于 击 中 率 和 虚 警 率 来 惟一 确定 4 。 

Cb) 假设 测量 两 个 未 知 的 不 同 的 阔 值 x* 的 击 中 率 和 虚 警 率 ,基于 此 测量 推导 出 一 个 
ds 的 公式 。 

Co) 说 出 并 解释 所 有 病态 值 , 此 时 你 的 公式 无 法 给 出 一 个 有 意义 的 a 的 值 。 

(d 绘 出 几 条 plzio,)~NO,D A plzle,)~N(1,2) et FA ROC HR. 


. 考虑 两 个 具有 不 同 均值 但 宽度 相等 的 一 维 三 角 分 布 ， 


(6 — |x — uil) /8? jx — uil < ô 
0 


i = T( i, 6 一 
P(x|a;) Hi, ô) | 其 他 


K2 Hio WARE SL AY ARRE” dT = (m — 1) /0. 

(a) E h HE ee HAN — PRT RM, BR dr 表示。 

(b) 在 dr 二 {0.1,0.2,…,1.0} 的 情况 下 绘 出 这 些 新 的 操作 特性 曲线 ,并 解释 在 dr = 1.0 
和 2.0 时 的 结果 。 

Cc) 假设 测 得 PCz>z” |x€w,)=0.7 和 P(x 之 x* |x€w,)=0.2,d72zBY? AHH 
误差 率 是 多 少 ? 

(dD 推断 (c) 问 中 引入 的 判定 规则 , 即 以 该 间 中 给 出 的 变量 来 表示 x". 

Ce) 假设 测 得 PCz>z |xzEw,)==0.3 和 P(x 之 zx* |xEw)=0.9。dz 是 多 少 ? 贝 叶 
斯 误差 率 是 多 少 ? 

Cf) 推断 (e) 问 中 引入 的 判定 规则 , 即 以 该 问 中 给 出 的 变量 来 表示 z* 。 

公式 (72) 可 用 来 获得 一 个 误差 率 的 上 确 界 。 对 于 一 般 分 布 ,也 可 以 推出 两 类 情况 下 的 

更 严格 的 解析 边界 一 一 上 界 和 下 界 一 一 类 似 于 式 (73) ,如 果 设 =pro) MAR 

min[Lp,1 一 pj( 具 有 不 连续 的 导数 ) 上 的 更 严格 的 边界 。 
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Ca) 证明 
l 
br(p) = B In | 


对 于 所 有 6 汪 >0, 为 min[Lp,1 一 pj 上 的 一 个 下 界 。 
Cb) 证 明 可 以 选择 Ca) 中 的 8 值 以 获得 一 个 任意 紧 的 下 界 。 
(c) 当 上 界 为 


l+e? 
e Êr 十 e—BU—p) 


bu(p) = by (p) + [1 — 2b, (0.5) bg (p) 
时 ,重复 (a) 和 (b), 其 中 bc(p) 是 任意 的 上 界 ,满足 
pc(p) > min{p, 1 — p] 
belp) = ball — p) 
bg(0) = be(l) =0 
bg(0.5) = 
(d) 证 明 bsp) =1/2sin rp FR OO RR. 


Ce) KR be (p) =1/2sin[ rp], h EAA FREAD p ARAR, AP OSPS, g 
=],10,50, 


2.9 节 
43, 设 回 量 x= (T "re Xa)’ 的 分 量 为 二 值 的 (0 或 1) , AW Powi) 为 类 别 状态 wW; 的 先 验 概 
率 , 其 中 j= 二 1,…,c。 现 定义 


Pij = Prix; = 1lw)] 


且 对 于 w 中 所 有 x, 其 分 量 x; 是 统计 独立 的 。 

Ca) 解释 p; 的 含义 。 

Cb) 证 明 最 小 误差 概率 通过 下 面 的 判定 规则 获得 :对 于 所 有 的 7 和 ,如果 gx (DS 
g; ox WAIA w, ,其 中 


g(x) = yx iT 一 一 L + In(l = py) +n Pe» 


44, Win) x= Cai sttty ta)! 的 分 量 为 三 值 的 (1 0 或 一 1) »A 
pij; = Prix; = 1 lwj] 
qi; = Pr[x; = 0 ļw;] 
Fij = PrÍx; = —I{a;] 
而 对 于 w PRA x Hae zx; 是 统计 独立 的 。 
(a) 证 明 最 小 误差 概率 可 利用 包含 以 分 量 r: 为 和 目 变量 的 二 次 型 范 数 作为 判别 函数 的 
判定 规则 推导 而 得 。 
Cb) 将 你 的 答案 推广 到 多 类 问题 和 43 题 。 
45. 设 x 的 分 布 同 第 43 题 且 c=2,d 为 奇数 ， 


pl = p>1/2 i=1,---,d 
pa = 1—p i=1,---,d 




















62 E 第 2 章 
H P(w,)=P(w,)=1/2, 
Ca) 证 明 最 小 误差 率 判 决 规则 变 为 : 
如 果 立 z, >d/2. 则 判 为 wm :否则 判 为 wm， 
Cb) 证 明 最 小 误差 概率 为 
(d—1)/2 d 
Ped. p)= J, (ma 一 站 
k=0 
其 中 (<4)=d1/Ck1(4d 一 人 上， 为 二 项 式 系数 . 
Cc) 当 p> 1/2 时 ,PC(d,p) 的 极限 值 是 多 少 ? 试 做 出 解释 。 
Cd) 证 明 当 dot} P,(d,p) 趋 于 0。 试 做 出 解释 。 
46. 在 关于 损失 率 的 自然 假设 条 件 下 , 即 和 2 Da oe Dae ,证 明 2.9.1 节 中 所 述 的 独立 二 
元 情况 下 的 一 般 最 小 风险 判别 画 数 为 g(x) 一 wx+Tw ,其 中 ww 不 变 , 且 
a | — pi Piw) 人 321 Ady 
o= 2 in ] — qi tin P (a2) tin 入 12 一 人 22 
47. 一 离散 变量 x 二 0,1,2,… 及 实 参 数 的 泊 松 分 布 为 
A 
P(x|A) =e “一 
X. 
(a) 证 明 此 分 布 的 均值 为 E[xj]=、。 
(b) 证 明 此 分 布 的 方差 为 EL[x 一 zj 二 和。 
(c) 一 种 分 布 的 “ 模 ”(mode) 定 义 为 具有 最 大 概率 的 的 值 。 证 明 泊 松 分 布 的 " 模 ” 为 
不 超过 的 最 大 整数 , 即 证 明 模 为 | 4 ], 读 做 “的 下 整数 "(如 果 是 整数 , 则 和 一 1 
都 是 模 ) 。 
(d) 考虑 两 个 等 概率 的 类 别 ,分 别 服 从 不 同 参数 的 泊 松 分 布 , 设 刀 >) 。 贝 叶 斯 分 类 判 
定 规则 是 什么 ? 
(e) 贝 叶 斯 误差 率 是 多 少 ? 
2.10 # 
48. 现 有 二 维 的 三 类 别 模式 ,具有 下 列 分 布 : 


. p(x|e@,)~NO,D 


alap ~N Yi 
PARI @2 (5) 4] 


1 0.5 1 一 0.5 
p(xlod~ZN( (5 =) 1) + 2 N( (3 5 ) 1) 


H P(e@,) =1/3,7=1,2,3. 


0.3 _ 
(a) 通过 显 式 地 计算 后 验 概率 ,以 最 小 误差 概率 对 点 x= P ，] 进 行 分 类 ， 
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i AR 


(b) LUM FRE MR S, RE EA TB x= ( ,) 进 行 分 类 。 


3 
(c) 假设 对 于 某 特定 的 测试 点 ,第 二 个 特征 值 丢失 了 , 即 对 x 二 ( ESZES 


% 
0.2\_ 
(d) 对 点 x=. “重复 以 上 各 步 ， 


49. 证 明 当 实际 的 特征 值 为 a, H pO |x.) ~N, DET, 30095) EAP OER 
2.11% 
50. 利用 例 4 中 的 条 件 概率 矩阵 回答 下 列 问题 
(a) 设 现 在 是 12 月 20 日 ,因此 P(ai)=P(as) 一 0.5, 并 且 已 知 捕 鱼 地 点 为 北大 西洋 ， 
BP P(b,) 二 1。 设 色泽 还 未 测量 出 ,但 已 知 鱼 形 较 瘦 , 即 P(d,) 二 1,。 对 鱼 分 类 (鲈鱼 
或 刍 鱼 ) ,估计 误差 率 为 多 少 ? 

(b) 假设 所 有 已 知 条 件 为 鱼 形 较 瘦 , 中 等 光泽 ,那么 现在 很 可 能 是 什么 季节 ? 猜 对 的 
概率 为 多 少 ? 

Cc) 假设 已 知 鱼 形 较 瘦 ,中 等 光泽 , 且 捕 鱼 地 为 北大 西洋 ,那么 现在 很 可 能 是 什么 季 
H? 猜 对 的 概率 是 多 少 ? 

51. 考虑 一 贝 叶 斯 置信 网 ,其 中 有 几 个 节点 值 未 指定 。 假 设 其 中 的 一 个 节点 随机 选取 ,其 
概率 由 正文 中 所 述 的 公式 计算 得 出 。 接 着 ,其 中 的 另外 一 个 节点 随机 地 抽取 (甚至 可 
能 为 已 经 访问 过 的 某 个 节点 ) ,其 概率 值 进行 类 似 的 更 新 。 证 明 此 过 程 将 通过 整个 网 
络 收敛 到 所 期 望 的 概率 。 

2. 12 节 

52. WA P(w,)=1/2, P(w,) = P(w,) =1/4 的 3 个 类 别 , 以 及 下 列 分 布 : 

e plr|lw )~N(O0,1) 

e p(z|w)~N(0.5,1) 

e pl(rlws)~N(1,1) 

我 们 取 如 下 的 4 个 样本 点 :z 一 0.6,0.1,0.9,1.1。 

Ca) 显 式 地 计算 该 序列 实际 所 属 的 类 别 mw ,mm ,mm ,aw 的 概率 ,注意 慎重 考虑 归 一 化 问题 . 
(b) 重复 序列 WI s W2 » 2 203 。 

Cc) 寻找 具有 最 大 概率 值 的 序列 。 


A 上 机 练习 








部 分 上 机 题 用 到 如 下 数据 : 
w wz w3 
样本 
Xl T2 T3 Xl £? T3 £] T2? 3 

1 —5.0] 一 8.12 一 3.68 ~0.91 -0.18 —0.05 5. 35 2. 26 8. 13 
2 一 5.43 ”一 3.48 一 3.54 1.30 ”一 2.06 —3,53 5. 12 3.22 —2.66 
3 1.08 一 5.52 1.66 —7.75 —4.54 —0.95 —1.34 -5.31  —9.87 
4 0.86 一 3.78 ~4,11 一 5.47 0. 50 3. 92 4. 48 3. 42 5. 19 
5 一 2. 67 0. 63 7. 39 6. 14 5.72 一 4.85 .14 2. 39 9. 21 
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a #2 # 

(26) 
w coz Gs 
样本 “一 -一 一 一 一- - 
x1 £? £3 x £? £3 T) X? x 
6 4,94 3. 29 2. 08 3. 60 1. 26 4, 36 7.17 4, 33 —0. 98 
7 一 2.51 2. 09 一 2.59 5. 37 — 4.63 — 3.65 5.75 3. 97 6. 65 
8 —2, 25 —2.13 — 6, 94 7,18 1. 46 — 6. 66 0.77 0. 27 2,41 
9 5.56 Z. 86 — 2. 26 — 7. 39 1.17 6. 30 0, 90 一 0. 43 —8. 7) 
10 1,03 — 3. 33 4. 33 一 7. 50 — 6.32 —0, 31 | 3.92 — 0. 36 6, 43 
2.5 $ 


1. 下面 的 几 道 题 可 能 会 用 到 如 下 的 程序 : 


BS 


3. 
4, 


on 


(a) 写 一 个 程序 产生 服从 d ESSN N, D) HEIER. 

Cb) 写 一 个 程序 计算 一 给 定 正 态 分 布 及 先 验 概率 PCw) 的 判别 函数 ( 式 (49) 中 所 给 的 
ÉK). 

O 写 一 个 程序 计算 任意 两 个 点 闻 的 欧 氏 距离 。 


(d) 在 给 定 协 方差 窍 阵 玉 的 情况 条 件 下 , 写 一 个 程序 计算 任意 一 点 xX 到 均值 上 & 间 的 
Mahalanobis 距离 。 


. 参考 上 机 练习 1(b) ,并 考虑 将 上 面 表格 中 的 10 个 样本 点 进行 分 类 的 问题 ,假设 分 布 是 


正 态 的 。 | 
Ca) (RIX BH a AnA FE RS (Po, ) = P(w,) = 1/2, H Plo) =0), {2A 
x1 特征 值 为 这 两 类 判别 设计 一 个 分 类 器 。 
(b) 确定 样本 的 经 验 训练 误差 , 即 误 分 点 的 百分比 。 
(c) 利用 Bhattacharyya 界 来 界定 对 该 分 布 所 产生 的 新 模式 进行 分 类 会 产生 的 误差 。 
(d) 现在 利用 两 个 特征 值 zx 和 x; ,重复 以 上 各 步 。 
(e) 利用 所 有 3 个 特征 值 重复 以 上 各 步 。 
O 讨论 所 得 的 结论 。 特 别 是 ,对 于 一 有 限 的 数据 集 , 是 否 有 可 能 在 更 高 的 数据 维 数 下 
经 验 误 差 会 增加 ? 
对 于 类 别 wo, 和 ws 重复 上 机 题 2. 
考虑 上 机 题 2 中 的 3 个 类 别 , 设 Pl(w)==1/3。 
(a) 以 下 各 测试 点 与 上 机 练习 2 中 各 类 别 均 值 间 的 Mahalanobis 距离 分 别 是 多 少 ;(1， 
2,1)',(5,3,2)',(0,0,0),(1,0,0)*, 
Cb) 对 以 上 各 点 进行 分 类 。 
Cc) Bik Pla) =0. 8, P(e.) =P(w,) =0.1, TY EWR RAK. 


.通过 以 下 步骤 说 明 这 样 一 个 事实 :大 量 独立 的 随机 变量 的 平均 将 近似 为 一 高 斯 分 布 。 


(a) 写 一 个 程序 ,从 一 均匀 分 布 U(zi,x) 中 产生 个 随机 整数 。( 有 些 计 算 机 系统 在 其 
尔 数 库 中 包含 了 这 样 的 旺 数 调用 .) 

(Cb) 现在 写 一 个 程序 ,从 范围 一 100 委 zz <z 委 十 100 中 随机 取 zx, 和 zz,, 以 及 在 范围 
0<” 委 1000 中 随机 取 n WEEER. 

Cc) 通过 以 上 所 述 的 方式 累计 产生 10° 个 样本 点 ,并 绘制 一 直方 图 。 

AdO 计算 该 直方 图 的 均值 和 标准 差 ,并 绘图 。 

Ce) 对 于 10 和 10 个 样本 点 分 别 重 复 以 上 步骤 ,讨论 所 得 结论 。 
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6. 根据 以 下 步骤 测试 经 验 误 差 是 如 何 接近 或 不 接近 Bhattacharyya 界 的 : 
(a) 写 一 个 程序 产生 d 维 空间 的 样本 点 ,服从 均值 为 k MOREE EHESS M. 
Cb) 考虑 正 态 分 布 


pote) m paleo A(( *)a) 


H P(w,)=P(e,)=0.5, WA N RARR. 
(c) 产生 n=100 个 点 050 个 四 类 的 点 ,50 个 ws 类 的 点 ) ,并 计算 经 验 误 差 。 
(d) 对 于 不 断 增加 的 值 重复 以 上 步骤 ,100 委 2? 委 1000, 步 长 量 为 100, 并 绘 出 所 得 的 
经 验 误 差 。 
Ce) 讨论 所 得 的 结论 。 特 别 是 ,经 验 误差 是 否 可 能 比 Bhattacharyya 或 Chernoff 界 还 
大 ? 
7. 考虑 两 个 一 维 正 态 分 布 p(xlw ~~N( 一 0.5,1D) 及 p(xzlw)~N( 二 0.5,1), 且 Plo) = 

P(a,)=0.5, 

(a) 计算 一 个 中叶 斯 分 类 器 的 Bhattacharyya REF. 

(b) 用 一 个 误差 函数 erf(*) 的 形式 表示 实际 误差 率 。 

Cc) 通过 数值 积分 (或 其 他 方式 ) 估 计 此 实际 误差 ,精确 到 4 位 有 效 数 字 。 

Cd) 分 别 产 生 每 类 10 个 样本 点 ,并 确定 用 以 上 贝 叶 斯 分 类 器 进行 分 类 时 的 经 验 误 关 。 
(必须 对 每 一 套数 据 集 重新 计算 判决 边界 。) 

Ce) 通过 重复 前 面 的 步骤 ,并 分 别 从 两 种 分 布 中 各 到 50、100、200、500 及 1000 个 样本 
点 ;绘制 出 经 验 误 差 作 为 取 自 两 种 分 布 的 样本 点 数 的 旺 数 图 。 比 较 渐 近 于 实际 误 
差 的 经 验 误 差 同 Bhattacharyya 误差 界 。 

.在 以 下 条 件 下 重复 上 机 题 7: 

(a) p(xz|a,)~NC—0.5,2) 8 plrla.)~N0.5,2),P(e,)=2/3 及 Pla) =1/3. 

Cb) plCxz|a.)~NC(—0.5,2)R plela) ~N(0.5,2),P(w,)=1/2 K P(w,)=1/2, 

Cc) p(z|a,)~N(—0.5,3) K plz|a.)~N0.5,1),P(e,)=1/2 及 Plw,)=1/2., 

2.115 
。 写 一 个 程序 对 例 3 FB f AY) Pa EAE Jn 叶 斯 置信 网 的 估计 ,包括 P(x; |a;) PCa: |b). PC; |x) 

及 Pl(d;|z;) 的 信息 。 通 过 例 3 中 所 给 的 计算 式 测 试 你 的 程序 。 将 你 的 程序 应 用 于 下 列 的 

情况 ,并 说 明 所 需 作 的 所 有 假设 。 

(a) 一 条 上 暗 且 守 的 鱼 在 北大 西洋 的 夏季 被 捕获 , 则 它 为 甸 鱼 的 概率 有 多 大 ? 

b) 一 条 窄 且 中 等 亮度 的 鱼 在 北大 西洋 被 捕获 ,当时 为 冬季 的 概率 有 多 大 ? 春季 的 概率 
多 大 ? 夏季 的 概率 多 大 ? 秋季 的 概率 多 大 ? 

(c) 一 条 亮 且 宽 的 鱼 在 秋季 被 捕获 , 它 来 目 北大 西洋 的 概率 有 多 大 ? 


oO 


Oo 
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最 大 似 然 估 计 和 贝 叶 斯 参数 估计 


在 第 2 章 中 ,我 们 已 经 知道 了 如 何 根 据 先 验 概率 P(w,) 和 类 条 件 概 率 密度 p(x|w;) 来 设计 
最 优 分 类 器 。 不 幸 的 是 ,在 模式 识别 的 实际 应 用 中 ,通常 得 不 到 有 关 问 题 的 概率 结构 的 全 部 知 
识 。 在 一 个 典型 的 问题 中 ,往往 只 有 一 些 模糊 而 笼统 的 知识 ,再 加 上 一 些 设计 样本 (或 称 为 训 
练 数据 ) ,这 些 样本 是 待 分 类 的 模式 的 一 个 特定 的 子 集 。 因 此 ,所 要 解决 的 问题 就 是 要 寻找 某 
种 有 效 的 方法 ,能 利用 现 有 的 这 些 信 息 设 计 出 正确 的 分 类 器 。 

我 们 的 解决 办 法 是 利用 这 些 训 练 样本 来 估计 问题 中 所 涉及 的 先 验 概率 和 条 件 密 度 函 数 ， 
并 把 这 些 估计 的 结果 当 作 实际 的 先 验 概率 和 条 件 密度 哺 数 ,然后 再 设计 分 类 器 。 在 典型 的 有 
监督 模式 识别 问题 中 , 信 计 先 验 概率 通常 没有 太 大 的 困难 (参见 习题 3) 。 最 大 的 困难 则 在 于 
估计 类 条 件 概 率 密度 。 其 中 主要 的 问题 有 两 个 :(1) 在 很 多 情况 下 ,已 有 的 训练 样本 数 总 是 显 
得 太 少 。(2) 当 用 于 表示 特征 的 向 量 x 的 维 数 较 大 时 ,就 会 产生 严重 的 计算 复杂 度 问 题 ( 算 法 
的 执行 时 间 , 系 统 资源 开销 等 ) 。 但 是 ,如 果 我 们 事先 已 经 知道 参数 的 个 数 ,并 且 先 验 知识 允许 
我 们 能 够 把 条 件 概 率 密度 进行 参数 化 ,那么 问题 的 难度 就 可 以 显著 的 降低 。 例 如 ,如 果 我 们 可 
以 正确 的 假设 p(x1w) 是 一 个 多 元 正 态 分 布 , 其 均值 为 &;, 协 方差 矩阵 为 2,( 这 两 个 参数 的 具 
体 的 值 则 是 未 知 的 )。 这 样 , 我 们 就 把 问题 从 估计 完全 未 知 的 概率 密度 p(x|w) 转 化 为 估计 参 
数 H; 和 D. 

参数 估计 问题 是 统计 学 中 的 经 典 问题 ,并 且 已 经 有 了 一 些 具 体 的 解决 方法 。 这 里 我 们 将 
主要 讨论 两 种 最 常用 和 很 有 效 的 方法 ,也 就 是 ;最 大 似 然 估 计 和 贝 叶 斯 估计 。 虽 然 这 两 个 方法 
得 到 的 结果 通常 是 很 接近 的 ,但 这 两 个 方法 的 本 质 却 有 很 大 差别 。 最 大 似 然 估计 (和 其 他 的 一 
些 类 似 方法 ) 把 待 估计 的 参数 看 作 是 确定 性 的 量 , 只 是 其 取 值 未 知 。 最 佳人 和 估 计 就 是 使 得 产生 已 
观测 到 的 样本 ( 即 训 练 样本 ) 的 概率 为 最 大 的 那个 值 。 与 此 不 同 的 是 ,由 时 斯 估计 则 把 待 估 计 
的 参数 看 成 是 符合 某 种 先 验 概率 分 布 的 随机 变量 。 对 样本 进行 观测 的 过 程 , 就 是 把 先 验 概 率 
密度 转化 为 后 验 概率 密度 ,这 样 就 利用 样本 的 信息 修正 了 对 参数 的 初始 佑 计 值 。 在 贝 叶 斯 估 
计 中 ,一 个 典型 的 效果 就 是 ,每 得 到 新 的 观测 样本 ,都 使 得 后 验 概率 密度 函数 变 得 更 加 尖锐 ,使 
其 在 待 估 参 数 的 真实 值 附 近 形 成 最 大 的 尖峰 。 这 个 现象 就 称 为 “ 贝 叶 斯 学 习 ? 过 程 。 无 论 使 用 
何 种 参数 估计 方法 ,在 参数 估计 完成 后 ,我们 都 使 用 后 验 概率 作为 分 类 准则 。( 具 体 方 法 请 参 
见 以 前 的 章节 )。 

在 这 里 ,要 特别 注意 区 别 “ 有 监督 学 习 ” 与 “无 监督 学 习 ” 这 两 个 概念 。 它 们 的 相同 点 是 , 产 
生 某 个 样本 x 的 过 程 都 是 :首先 根据 先 验 概 率 Plo, HE BARS wm, 然后 在 目 然 状态 w F, 
独立 的 ( 即 不 受 其 他 自然 状态 的 影响 ) 根 据 类 条 件 概率 密度 palo KER x。 不 同 点 是 :在 佑 
计 概 率 密 度 时 ,有 监督 学 习 问 题 的 每 一 个 样本 的 所 属 的 目 然 状态 w (有 时 候 称 为 这 个 样本 的 
“标记 ”(labeb) ) 都 是 已 知 的 ,而 对 于 无 监督 学 习 问 题 ,每 个 样本 的 自然 状态 是 未 知 的 。 显 然 ,我 
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们 可 以 想像 到 ,无 监督 学 习 问 题 的 处 理 更 为 困难 。 在 这 一 章 中 ,我们 将 主要 考虑 有 监督 学 习 问 
题 。 而 对 于 无 监督 学 习 问 题 ,将 在 第 10 章 中 进行 详细 讨论 。 

最 后 ,还 存在 着 一 些 非 参 数 化 的 方法 (nonparametric procedure) ,这 些 方法 通常 先 对 特征 
空间 进行 变换 ,然后 在 变换 空间 中 再 采用 参数 化 的 方法 ,用 以 达到 简化 问题 的 目的 。 在 这 些 
“判别 分 析 法 ”(discriminant analysis method) 中 ,最 重要 的 是 Fisher 线性 判别 函数 (Fisher lin- 
ear discriminant) , 它 将 本 章 中 的 参数 化 方法 ,与 第 5 章 、 第 6 章 两 章 中 的 自 适应 技术 和 第 10 
章 中 的 特征 选择 方法 之 间 建 立 起 了 重要 的 联系 。 


3.2 最 大 似 然 估计 


最 大 似 然 估 计 方 法 有 许多 优秀 的 性 质 。 首 先 , 这 一 方法 在 训练 样本 增多 时 通常 收敛 得 非 
常 好 。 而 且 , 最 大 似 然 估 计 方 法 通常 比 其 他 方法 (比如 贝 叶 斯 估计 方法 ,或 在 后 续 章 节 中 讨论 
的 另 一 些 方法 ) 要 简单 ,因此 很 适合 实际 应 用 。 


3.2.1 基本 原理 


假设 我 们 要 根据 每 个 样本 所 属 的 类 别 来 对 一 组 样本 进行 分 类 。 这 样 , 我 们 就 有 c 个 样本 
RD, ,D,，…D. 。 而 其 中 任意 一 个 样本 集 D; 中 的 样本 都 是 独立 的 根据 类 条 件 概 率 密度 函数 
P(x|lw;) 来 抽取 的 。 因 此 我 们 说 每 一 个 样本 集中 的 样本 都 是 独立 同 分 布 的 随机 变量 (i. id). 
我 们 还 假设 每 一 个 类 条 件 概率 密度 p(x|w;) 的 形式 都 是 已 知 的 ,其 未 知 的 部 分 就 是 具体 的 参 
AA 8 的 值 。 因 此 ,一 旦 我 们 知道 了 参数 向 量 6 的 值 ,那么 整个 类 条 件 概率 密度 也 就 确定 
了 。 例 如 ,我 们 可 能 会 假设 如 xlw;) 服 从 多 维 正 态 分 布 , 即 ,xloi) 一 NG ,一 )。 这 样 , 参 数 
问 量 6 SA, L 所 组 成 。 为 了 强调 类 条 件 概率 密度 函数 (xlw ) 依 赖 于 参数 向 量 9 
这 一 事实 ,通常 把 它 写 作 形 如 训 xlwi,b) 的 形式 。 因 此 ,要 解决 的 问题 就 是 ,根据 已 有 的 训练 
样本 ,来 尽 可 能 正确 的 估计 各 个 类 别 的 具体 的 参数 向 量 :0 ,0,,… ,0.， 
为 了 简化 对 问题 的 处 理 , 总 是 假设 属于 类 别 D; 的 训练 样本 对 于 参数 向 量 6; GAD RIT 
不 提供 任何 信息 。 也 就 是 说 ,假设 每 个 参数 向 量 O 对 它 所 属 的 类 别 起 的 作用 都 是 互相 独立 ， 
互 不 影响 的 。 因 此 每 个 参数 问 量 只 对 上 自己 的 类 别 中 的 样本 起 作用 ,这 就 允许 我 们 对 每 个 类 别 
可 以 分 别处 理 , 同 时 也 使 得 记号 得 以 简化 。 因 为 在 这 种 情况 下 ,用 于 表示 不 同类 别 的 下 标 可 以 
省 略 。 在 这 样 的 假设 条 件 下 ,我 们 将 有 c 个 独立 的 问题 ,其 中 的 每 一 个 问题 都 可 以 表述 成 下 列 
形式 :已 知 样本 集 D ,其 中 每 一 个 样本 都 是 独立 的 根据 已 知 形式 的 概率 密度 函数 (x | OD HK 
得 到 的 ,要 求 使 用 这 些 样本 , 佑 计 概 率 密度 函数 中 的 参数 向 量 8 的 值 。 
假设 样本 和 集 D 中 有 nn 个 样本 :x ,x:,，…,x,。 由 于 这 些 样本 是 独立 抽取 的 ,因此 下 式 成 


WV: 


p(D|0) = | | p16) (1) 


k=l 
回想 第 2 章 , 因 为 现在 样本 集 D 已 知 ,所 以 可 以 把 p(D19) 看 成 是 参数 向 量 6 的 函数 ,被 称 
为 样本 集 D 下 的 似 然 函 数 。 根 据 定 义 , 参 数 向 量 8 的 最 大 似 然 估 计 , 就 是 使 p(D19) 达 到 最 大 
值 的 那个 参数 向 量 6。 或 者 可 以 这 样 直 观 的 理解 :参数 向 量 8 的 最 大 似 然 估 计 就 是 最 符合 已 
有 的 观测 样本 集 的 那 一 个 ,参见 图 3-1。 
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1.2 x 1907 
0.8 x 107 
0.4 x 10” 
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图 3-1 ”位 于 最 上 方 的 图 显示 了 一 维 情况 下 的 一 些 训练 样本 ,这 些 样本 都 服从 一 个 方差 已 知 ,而 均 
值 未 知 的 一 维 高 斯 分 布 。 虚 线 表示 的 是 所 有 可 能 的 源 分 布 中 的 4 种 具体 分 布 。 位 于 中 间 的 图 显示 
了 似 然 函 数 加 ( 刀 | 人 关于 均值 的 函数 图 像 。 如 果 我 们 有 非常 多 的 训练 样本 ,那么 这 个 函数 的 波形 
将 是 非常 罕 的 。 使 得 似 然 函 数 取 得 最 大 值 的 点 标记 为 6。 这 个 使 得 似 然 孙 数 取得 最 大 值 的 点 ,也 
是 使 得 在 最 下 方 的 图 中 所 示 使 得 对 数 似 然 函数 !(0) 取 到 最 大 值 的 那个 点 。 注 意 , 对 于 似 然 函数 
PCD | O) 和 条 件 概率 密度 函数 p(x| 候 ,虽然 它们 看 起 来 相像 ,但 是 似 然 函数 户 ( 了 | 人 是 一 个 关于 8 
的 函数 ,而 条 件 概 率 密度 函数 pa HAEATA 0 为 参数 而 关于 变量 z 的 函数 。 而 且 , 作 为 一 个 
关于 2 的 郴 数 ,如 到 12 并 不 表示 概率 密度 ,其 曲线 下 的 面积 并 没有 什么 实际 的 意义 | 


Fl T Fa Boo BT BY DR, A rT Ch a A AD PR R YT AL TS AR 
函数 本 身 。 由 于 底数 大 于 1 的 对 数 函 数 总 是 单调 递增 的 ,所 以 使 似 然 函数 的 对 数 达 到 最 大 值 
的 参数 向 量 和 ,也 使 得 似 然 函 数 本 身 达 到 最 大 值 。 如 果 pCD198) 是 一 个 可 微 函 数 ,那么 这 个 名 
的 值 就 可 以 用 标准 的 微分 运算 来 求 得 。 如 果实 际 的 待 求 参数 的 个 数 为 如 , 则 参数 向 量 6 可 以 
写成 如 下 的 P HE [a] E EA: O= (ð, ,0 °°" 59,)°. w Ve 为 如 下 的 梯度 算 子 : 


001 
Vo = : (2) 
KA 
30, 
RE SL XT RADA PRK 10) HO 
(0) = In p(D}\8@) (3) 


这 样 我 们 可 以 把 求 使 对 数 似 然 函数 最 大 的 那个 0 的 过 程 写成 规范 的 形式 


QO 原则 上 说 ,对 数 的 底数 可 以 根据 方便 而 任意 选取 ,但 在 实际 应 用 中 ,选用 以 。 为 底数 通常 最 便于 分 析 , 因 此 ,我 们 通 
常 使 用 jn, 而 不 使 用 log 或 logs FEA. 
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ĝ = arg max 1(8) (4) 


FE PY) XT RAR pK OO eR EK READ. BAA) MAR), RNA FAA 
1(0) = 》 In p(x 16) (5) 


k=] 


Vol = >》 Vo In p(x10) (6) 


k=1 
这 样 ,我 们 就 得 到 了 一 组 求解 最 大 似 然 估计 值 6 的 必要 条 件 ( 注 意 , 这 是 必要 条 件 , 而 不 是 充分 
条 件 ) ,这 组 条 件 是 由 p 个 方程 所 组 成 的 方程 组 

Vel = 0 (7) 

这 里 ,请 注意 方程 组 (7) 的 解 6 可 能 是 真正 的 全 局 最 大 值 点 ,也 可 能 是 局 部 极 值 点 ,或 者 仅仅 是 
函数 0) 的 一 个 拐点 (虽然 这 一 情况 较 少 见 )。 我 们 还 必须 注意 检查 所 得 到 的 解 是 否 是 位 于 
定义 域 空间 的 边界 上 。 如 果 所 有 的 极 值 解 都 已 经 求 得 了 ,我 们 就 能 确定 其 中 必 有 一 个 是 全 局 
的 最 大 值 点 。 接 着 ,必须 对 所 有 的 可 能 解 进 行 检查 (或 可 以 用 计算 二 阶 导数 的 方法 ) 以 确定 其 
中 的 真正 的 全 局 最 优点 。 当 然 ,我 们 还 得 时 刻 记 住 得 到 的 和 只 是 对 于 真实 值 的 一 个 估计 ,其 对 
于 真实 值 的 接近 程度 是 受训 练 样本 个 数 的 制约 的 。 如 果 训 练 样本 个 数 越 多 ,其 中 的 样本 越 具 
有 代表 性 , 那 估 计 值 8 也 就 越 接近 真实 值 。 

这 里 值得 指出 ,还 存在 一 种 叫做 最 大 后 验 (maximum a posteriori, 或 简 记 为 MAP) 的 估计 
大, 也 就 是 求 使 (0)p(0) 取 最 大 值 的 那个 参数 向 量 9。 这 里 的 p(0) 是 对 参数 向 量 ORAM fA 
的 概率 的 先 验 佑 计 。 所 以 ,上 文 所 述 的 最 大 似 然 估计 器 可 以 说 是 当先 验 概 率 p(0) 为 均匀 分 布 
时 的 MAP 估计 器 。 这 样 ,MAP 估计 器 求 出 峰值 ,或 后 验 密度 的 众 数 。MAP 估计 器 的 缺点 在 
于 ,如 果 我 们 对 参数 空间 作 某 些 任意 的 非 线 性 变换 ,例如 ,进行 一 个 旋转 变换 ,那么 概率 密度 
pCO) BLE RA BAG RO A MAP 估计 结果 就 不 再 有 效 了 (3. 5. 2 节 )。 

3.2.2 高 斯 情况 :4 未知 

为 了 加 深 对 最 大 似 然 估计 方法 的 理解 ,我 们 这 里 将 深入 讨论 当 训 练 样本 服从 多 元 正 态 分 
布 时 的 情况 。 设 这 个 多 元 正 态 分 布 的 均值 为 g, 而 协 方差 矩阵 为 卫 。 首 先 ,为 了 简单 起 见 ,我 
们 将 先 分 析 当 协 方差 矩阵 马 已 知 ,而 均值 严 未 知 的 情况 。 在 这 样 的 假设 下 ,我 们 考虑 一 个 训 
练 样本 点 x, ,有 下 面 的 式 子 成 立 : 


In p(X, |) = -> In [(227)“|%1] ~ ; — pE (x 一 p) (8) 
和 
Vi In pxl) = E(x — m) (9) 
这 里 我 们 用 天 标识 和 9 是 为 了 强调 参数 向 量 b 中 的 未 知 量 为 hk。 结合 式 (6),(7),(9) ,我 们 可 以 
得 到 ,对 & 的 最 大 似 然 估计 值 必须 满足 下 式 : | 


Yor KH, — A) =0 (10) 


k=! 


两 边 乘 以 协 方差 矩阵 互 ,并 且 进 行 一 些 简 单 整理 后 ,我 们 得 到 下 述 公 式 ， 





RAW Rit fe Neva RMS m 7] 


o (le 
p=-) x (11) 
n zi 


这 是 一 个 非常 好 的 结果 。 这 个 公式 说 明 : 对 均值 的 最 大 似 然 估 计 就 是 对 全 体 样 本 取 平 均 ， 
也 就 是 均值 的 最 大 似 然 估计 等 于 样本 均值 。 因 此 有 时 也 把 这 个 结果 记 为 4, ,以 强调 依赖 于 训 
练 样本 的 个 数 n 这 一 事实 。 其 几何 意义 是 ,如 果 把 样本 和 集 看 作 是 一 个 由 点 组 成 的 云 团 , 则 这 个 
样本 均值 就 是 这 个 云 团 的 质心 。 样 本 均值 还 具有 其 他 的 一 些 优秀 的 统计 性 质 。 通 常 在 实际 应 
用 中 ,即使 不 知道 这 是 最 大 似 然 估 计 方 法 得 出 的 结果 ,我 们 往往 也 直接 使 用 样本 均值 作为 实际 
均值 的 估计 。 
3.2.3 高 斯 情况 :4 AERA 

实际 应 用 中 ,多 元 正 态 分 布 的 更 典型 情况 是 ,均值 由 和 协 方差 矩阵 互 都 未 知 。 这 样 ,参数 
HE 6 就 是 由 这 两 个 成 分 组 成 。 我 们 首先 考虑 单 变量 的 情况 ,其 中 参数 向 量 8 的 组 成 成 分 是 : 
0 =u, h= 。 这 样 ,对 于 单个 训练 样本 的 对 数 似 然 肾 数 为 : 


in p10) l, oA ! 0y? (12) 
n XE 一 一 一 ii 二 元 25 一 一 一 ~ 
P(x; 5 2 26; Xk ] 
对 上 式 关 于 变量 ORS, 
] 
g T) 
Vol = Ve in p(x;10) = OL K-91) (13) 
262 203 


运用 式 (7) ,我 们 得 到 对 于 全 体 样 本 的 对 数 似 然 函 数 的 极 值 条 件 


H 


l ~ 
>》 (x — 41) = 0 (14) 
fa & 


n 1 H (x, — 6)? 
yrs gy Oe _ 


z 5 0 (15) 
k=] 02 k=] 0; 


SESH HY O, 8, 分 别 是 对 于 9,, 的 最 大 似 然 估计 。 
把 0 ,和 FR fea? 代替 ,并 进行 简单 的 整理 ,我 们 得 到 下 述 的 对 于 均值 和 方差 的 最 大 似 然 估 
计 结 果 


、 l 
â=- bo (16) 


] 
“2 + py 
ô? =- 9 O H) (17) 


当 高 斯 函数 为 多 元 时 ,最 大 似 然 估 计 的 过 程 也 是 非常 类 似 的 ,当然 ,也 将 更 加 复杂 ( 习 
题 6)。 对 于 多 元 高 斯 分 布 的 均值 忆 和 协 方差 矩阵 互 的 最 大 似 然 估 计 结 果 为 : 


h= -Fn (18) 


(xk — AX: — pry’ (19) 
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这 样 , 我 们 又 一 次 的 看 到 实际 均值 的 最 大 似 然 估计 就 是 样本 均值 。 协 方差 的 最 大 似 然 估 计 则 是 
n(x, 一) (x 一 2)' 矩阵 的 算术 平均 。 因 为 实际 的 协 方 差 矩 阵 是 关于 和 矩阵 (x 一 上 ) (x) 的 数 
学 期 望 ,所 以 可 以 看 到 协 方差 的 最 大 似 然 们 计 结 果 也 是 非常 直观 和 令 人 满意 的 。 
3.2.4 ”估计 的 偏差 

在 上 文 的 分 析 中 ,对 方差 o 的 最 大 似 然 估计 是 有 偏 的 估计 。 也 就 是 说 ,对 所 有 可 能 的 大 
小 为 n 的 样本 集 进行 方差 估计 ,其 数学 期 望 并 不 等 于 实际 的 方差 ?, 因 为. 


E É DM 一 a? = “9? 天 o? (20) 


在 第 9 章 中 ,我 们 将 对 估计 偏差 (bias) 的 通常 情况 作 进 一 步 分 析 。 而 在 这 里 ,可 以 对 公 
式 (20) 的 正确 性 作 一 个 验证 。 假 设 一 个 分 布 的 方差 非 零 ,如 玉 考 虑 仅 有 一 个 样本 的 极端 情 
况 。 在 这 种 情况 下 ,估计 值 的 数学 期 望 为 0, 所 以 不 等 于 o。 类 似 的 ,对 协 方差 矩阵 的 最 大 似 
然 估计 也 是 有 偏 的 。 

对 协 方差 矩阵 的 无 偏 估计 则 如 下 式 所 示 : 


C= 





X (xx — A(X — AY (21) 
人 二 1 


n— | 


上 式 中 的 矩阵 C 被 称 为 “样本 协 方差 矩阵 ”(sample covariance matrix, 请 参见 习题 30, 里面 有 
更 详细 的 论述 )。 如 果 一 个 估计 器 对 于 所 有 的 分 布 都 是 无 偏 的 (例如 式 (21) 给 出 的 协 方差 估计 
算 子 ) ,那么 它 就 被 称 为 绝对 无 偏 的 (absolutely unbiased)。 如 果 某 一 个 估计 器 在 样本 数 n 很 
大 时 ,能够 趋 于 无 偏 估计 (例如 式 (20) 给 出 的 估计 器 ), 则 这 个 估计 器 被 称 为 渐进 无 偏 的 (as- 
ymptotically unbiased) 。 在 许多 模式 识别 的 实际 问题 中 ,如 果 训 练 样本 集 足够 大 ,那么 渐进 无 
偏 估计 算 子 得 出 的 结果 是 可 以 被 接受 的 。 

显然 , 丈 ==[(n 一 1) /njC, 区 是 渐进 无 偏 的 估计 。 但 当 样 本 数 ”很 大 时 ,这 两 个 结果 几乎 是 
相同 的 。 但 是 ,同时 存在 这 两 个 相似 却 又 不 完全 相同 的 估计 方法 ,这 总 是 令 人 迷惑 的 。 我 们 显 
然 要 问 ,究竟 哪 一 个 是 “正确 ”的 。 当 然 , 对 于 nal 的 情况 ,这 两 个 结果 都 是 无 所 谓 正 确 , 也 无 
所 谓 错 误 一 一 它们 只 是 不 同 而 已 。 存 在 着 两 个 不 同 的 估计 这 一 事实 ,说 明了 没有 惟一 的 一 个 
估计 ,能 够 满足 我 们 的 各 方面 的 要 求 。 就 我 们 的 目的 来 说 ,总 是 希望 某 一 估计 能 够 使 得 最 后 的 
分 类 结果 为 最 优 ,而 这 一 要 求 却 是 比较 抽象 的 。 无 疑 ,使 用 最 大 似 然 估 计 的 结果 是 合理 的 ,在 
实际 中 也 是 相当 有 效 的 。 但 我 们 要 问 ,是 否 存 在 着 某 种 使 得 分 类 效果 更 加 好 的 估计 。 后 面 我 
们 就 要 从 贝 叶 斯 学 派 的 观点 来 回答 这 个 问题 。 

如 果 我 们 对 于 产生 已 知 样 本 分 布 的 数学 模型 及 其 参数 向 量 8 的 建 模 都 是 可 靠 的 ,那么 最 
大 似 然 估计 就 能 够 有 很 好 的 结果 。 但 如 果 我 们 的 数学 模型 本 身 就 有 错误 呢 ? 我 们 是 否 能 够 保 
证 基于 那个 不 正确 的 模型 的 估计 方法 仍然 能 得 到 最 优 分 类 器 呢 ? 比如 ,我 们 认为 样本 服从 
Nw 1 分布, 而 事实 上 ,样本 却 服 从 NG,10) 的 分 布 。 这 时 我 们 设计 的 分 类 器 还 会 是 最 优 的 
吗 ? 很 不 幸 的 是 :答案 是 否定 的 。 习 题 7 将 给 出 一 个 例子 ,说 明 不 正确 的 模型 带 来 的 误差 的 影 
响 是 非常 巨大 的 。 也 就 是 说 ,需要 对 数学 模型 有 较 可 靠 的 知识 。 如 果 初 始 假设 的 数学 模型 与 
实际 的 情况 有 较 大 偶 差 的 话 , 那 显然 无 法 保证 设计 出 来 的 分 类 器 会 是 最 优 分 类 髓 。 在 第 9 章 
中 ,我 们 还 将 讨论 数学 模型 的 选取 的 问题 。 


O “偏差 "一 词 一 般 指 的 是 偏 移 量 ,统计 估计 上 的 偏差 与 判别 函数 或 多 层 神经 网 络 中 的 偏 置 权 无 关 。 
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3.3 贝 叶 斯 估计 


我 们 在 这 一 节 中 讨论 模式 识别 中 的 贝 叶 斯 佑 计 和 贝 叶 斯 学 习 方 法 。 虽 然 使 用 贝 叶 斯 估计 
方法 得 到 的 结果 与 最 大 似 然 估 计 的 结果 很 相似 ,但 这 两 个 方法 在 本 质 上 是 很 不 同 的 :在 最 大 似 
然 估计 方法 中 ,我 们 把 需要 估计 的 参数 向 量 8 看 作 是 一 个 确定 而 未 知 的 参数 。 而 在 贝 叶 斯 学 
习 方 法 中 ,我 们 把 参数 向 量 6 本身 看 成 一 个 随机 变量 ,已 有 的 训练 样本 使 我 们 能 够 把 对 于 06 的 
初始 密度 的 估计 转化 为 后 验 概率 密度 。 

3.3.1 类 条 件 密度 

贝 叶 斯 分 类 方法 的 核心 是 后 验 概率 PCw;|x) 的 计算 。 贝 叶 斯 公式 告诉 我 们 如 何 根据 类 条 
件 密度 p(x|w;) 和 各 类 别 的 先 验 概率 PC(w) 来 计算 这 个 后 验 概率 。 但 是 ,在 这 两 个 概率 也 未 知 
的 情况 下 ,该 如 何 处 理 呢 ?我 们 能 做 的 就 是 希望 利用 现 有 的 全 部 信息 来 计算 后 验 概 率 
Pto;|x) ,其 中 的 “ 现 有 的 全 部 信息 ”如 下 ;一 部 分 为 我 们 的 先 验 知识 ,比如 未 知 概率 密度 函数 
的 形式 ,未 知 参 数 的 取 值 范围 等 ; 男 一 部 分 信息 则 来 自 于 训练 样本 本 身 。 在 这 里 ,我 们 仍然 用 
也 表示 现 有 训练 样本 的 集合 ,那么 我 们 把 后 验 概率 PCw|x) 进 一 步 写成 Plx, DJE, H 
来 强调 训练 样本 在 估计 过 程 中 的 重要 性 。 根 据 这 些 概率 ,我 们 就 能 够 设计 出 贝 叶 斯 分 类 器 。 

如 果 已 有 样本 集 刀 ,那么 贝 叶 斯 公式 变 为 


i, D)P i|D 
Pasi, D) = PAn DPD) 


2 p(xlw;, D) P(w;|D) 
j=l 


这 一 公式 指出 ,我们 能 够 根据 训练 样本 提供 的 信息 来 确定 类 条 件 概率 密度 p(x|w;,D) 和 先 验 
概率 Plo |D). 

尽管 公式 (22) 具 有 更 大 的 一 般 性 ,但 实际 上 我 们 通常 可 以 认为 先 验 概率 可 以 事先 得 到 ,或 
者 仅 通 过 简单 的 计算 就 能 够 求 得 先 验 概率 ,因此 ,我 们 通常 把 P DHEER Po), ME, 
由 于 我 们 处 理 的 是 有 监督 的 学 习 , 因 此 完全 可 以 把 每 一 个 样本 都 归 到 它 所 属 的 类 中 去 , 即 把 全 
体 训 练 样本 依据 类 别 分 到 c 个 次 样本 集 (subset) :Di ,D: ,…，,D: 中 去 。 如 同 在 讨论 最 大 似 然 
问题 时 一 样 ,如 果 Eg ,那么 样本 集 D; 中 的 训练 样本 就 对 p(x|w,D) 没 有 任何 影响 。 这 样 就 
产生 了 两 个 如 下 的 简化 :首先 ,这 就 使 得 我 们 能 够 对 每 一 个 类 进行 分 别处 理 , 即 只 使 用 D; 中 的 
训练 样本 来 确定 p(x|w;,D)。 结 合 上 文中 已 知 的 先 验 概率 ,公式 (22) 就 能 够 被 写成 如 下 的 形 
A: | 


(22) 


is Di) P (w; 
P(w;|x, D) = Ple )P (wi) 


>, P(xlw;, Dj) P(@,;) 
j=l 


其 次 ,由 于 能 够 对 每 一 个 类 别 进 行 分 别处 理 , 因 此 公式 中 为 了 说 明 各 个 类 别 的 记号 都 可 以 
省 略 , 简 化 了 公式 的 形式 。 所 以 ,就 其 实质 来 说 ,我 们 要 处 理 的 是 c 个 独立 的 问题 ,每 一 个 问题 
都 是 如 下 的 形式 :已 知 一 组 训练 样本 D, 这 些 样本 都 是 从 固定 但 未 知 的 概率 密度 函数 p(x) 中 独 
立 抽取 的 ,要 求 根 据 这 些 样本 估计 p(x|D)。 这 就 是 贝 叶 斯 学 习 的 核心 问题 。 
3.3.2 参数 的 分 布 

虽然 具体 的 概率 密度 函数 如 (x) 未 知 , 但 我 们 假设 其 参数 形式 是 已 知 的 。 所 以 惟一 未 知 的 
就 是 参数 向 量 6 的 值 。 为 了 明确 的 表示 p(x) 的 形式 已 知 而 参数 的 值 未 知 这 一 事实 ,我 们 强调 
条 件 概 率 密 度 函 数 p(x| 介 是 完全 确定 性 的 。 在 观察 到 具体 的 训练 样本 之 前 ,我 们 已 有 的 关于 


(23) 
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参数 向 量 8 的 全 部 知识 就 可 以 用 已 知 的 先 验 概率 密度 函数 p (0) 来 体现 。 对 训练 样本 的 观察 ， 


使 得 我 们 能 够 把 这 个 先 验 概率 密度 转化 成 后 验 概 率 密度 函数 p(0|1D), 并 且 ,我 们 希望 这 个 后 
验 概 率 密度 p(81D) 在 8 的 真实 值 附近 有 非常 显著 的 尖峰 ， 

注意 ,我 们 已 经 把 一 个 学 习 概 率 密度 的 问题 转化 成 为 一 个 估计 未 知 参量 的 问题 。 因 此 ,到 
目前 为 止 , 基 本 目标 是 计算 后 验 概率 密度 函数 p(x|D), 并 且 使 得 它 尽 可 能 精确 地 台 近 p(x)。 
我 们 把 联合 概率 密度 px BDX 8 进行 积分 ,也 就 是 


p(x|D) = foa OID) de (24) 


其 中 积分 是 对 整个 定义 域 进行 的 。 现 在 ,我 们 总 能 够 把 (x,0|D) FB RHR p(x 0,D) p(O|D) 
的 形式 。 由 于 对 测试 样本 x 和 训练 样本 集 DD 的 选取 是 独立 进行 的 ,因此 p(x|9,D) 就 等 于 
p(x18)。 也 就 是 说 ,只 要 我 们 能 够 得 到 参数 向 量 6 的 值 ,x 的 分 布 形式 就 完全 已 知 了 。 这 样 ， 
公式 (24) 可 以 重 写 为 


p(x|D) = f PIPO) do (25) 


LAR OTS IT PRB DAK, CHAE BE p(x|D)S 和 未 知 参 量 的 后 验 概 率 
密度 p(8|D) 联 系 起 来 。 如 果 后 验 密度 p01) 在 某 一 个 值 上 86 附近 形成 最 显著 的 尖峰 ,那么 就 
有 p(x1D) 守 p(x10) ,也 就 是 说 ,有 几 估 计 值 各 近似 代替 真实 值 所 得 的 结果 。 当 然 , 这 个 结果 的 
前 提 条 件 是 要 求 p(x|0) 必 须 光 滑 , 并 且 积 分 拖 尾 的 影响 足够 小 。 这 些 条 件 通常 很 典型 ,但 也 
并 非 一 成 不 变 , 有 时 会 有 例外 的 情况 。 总 的 来 说 ,如 果 我 们 对 参数 向 量 8 的 真实 值 并 不 十 分 有 
把 握 的 话 , 那 么 该 方程 指导 我 们 应 该 把 p(x10) 对 所 有 可 能 的 8 求 平均 ,这 样 得 到 的 结果 将 最 
令 人 满意 。 上 总 结 前 面 的 讨论 ,现在 已 经 知道 ;如果 未 知 的 概率 密度 函数 具有 一 个 已 知 的 形式 的 
话 , 已 有 的 训练 样本 就 能 够 通过 后 验 密度 p(8|D) 对 pC(x1D) 的 估计 施加 影响 。 同 时 也 应 该 指 
出 ,在 实际 应 用 中 , 式 (25) 也 可 以 用 数值 计算 的 方法 进行 计算 ,例如 蒙特 卡 洛 仿真 (Monte- 


Carlo simulation) , 


3.4 贝 叶 斯 参数 估计 :高 斯 情况 


在 这 一 节 中 ,我们 对 高 斯 正 态 密度 函数 的 情况 ,用 贝 叶 斯 估计 方法 来 计算 9 的 后 验 概 率 密 
度 函 数 p (61 D) 和 设计 分 类 器 所 需 的 概率 密度 函数 p(x|1D)。 其 中 我 们 假设 
pxl) ~ Nn,E), 
3.4.1 单 变量 情况 :p(x iD) 
我 们 先 考虑 只 有 均值 & 未 知 的 情况 。 为 简单 起 见 ,我 们 这 里 先 处 理 一 维 的 情况 ,也 就 是 
p(x) ~ N(u, 0°) (26) 
其 中 惟一 的 未 知 数 就 是 均值 4。 而 且 , 我 们 认为 所 有 的 关于 均值 六 的 先 验 知识 都 包含 在 先 验 
概率 密度 函数 p O P ,我 们 假设 均值 x 服从 
pu) ~ N (po, 06) (27) 
其 中 的 m Alo 都 是 已 知 的 。 不 严格 地 说 ,m 代表 了 我 们 对 均值 x 的 最 好 的 先 验 估计 ,而 of 
则 表示 了 我 们 对 这 个 估计 的 不 确定 程度 。 认 为 均值 w 服 从 正 态 分 布 这 一 假设 能 够 在 数学 推 


O ”注意 我 们 这 里 的 paul DEZREN paw D), 
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导 上 简化 运算 (公式 (27))。 然 而 必须 记 住 ,在 估计 4 的 过 程 中 所 做 的 最 关键 的 假设 并 不 是 均 
E e 服从 正 态 分 布 这 一 具体 形式 ,而 是 假设 均值 上 服从 某 一 个 已 知 的 分 布 。 
在 选择 好 了 均值 & 的 先 验 概率 密度 图 数 以 后 ,我 们 能 够 这 样 来 理解 问题 :设想 从 均值 /的 
分 布 p(y) 中 选取 一 个 具体 的 4 值 ,一 旦 这 个 pz 值 被 选 定 , 它 就 成 为 4 的 真实 值 ,由 于 我 们 已 经 
认为 p(x| 介 是 完全 已 知 的 ,也 就 是 完全 确定 了 变量 z 的 概率 密度 函数 。 然 后 ,再 从 变量 xz 的 
概率 密度 肾 数 中 ,独立 的 抽取 个 样本 xz; cess tno WED = {21s 22st zn}. MAW OHA 
式 ,得 到 
p(DIK) p(s) 


D) = 一 一 一 一 -一 一 一 一 一 
PHD) = Dw) paw du 


=a] | pein) (28) 


k=l 
其 中 a 是 一 个 依赖 于 样本 集 DD 的 归 一 化 系数 ,这 个 系数 不 依赖 于 yx。 这 一 公式 说 明了 训练 样本 
能 如 何 的 影响 对 A 值 的 估计 。 它 把 先 验 概 率 密度 p(x) 和 后 验 概率 密度 p(x1D) 联 系 了 起 来 。 
因为 plz, |O~N( 2.0), Al plu) ~NGo ol) ,我们 有 


P(x) piu) 
qq 
~ 1 /xe— nN’ l | (u— poy? 
(u|D) =a] | —= ex -5{ ) eX -;(4*) 
Pu”) I] / 210 p | 2 o | / 2109 P | 2\ Go 
1 [S (u-x%\ =] 
=a | (È 5 ) +( m 
H 1 n 1 2 l n Ho 
=a e| -3 (5r) -2( done Mt) al (29) 


上 式 中 的 不 依赖 于 e 的 那些 因子 都 被 归 人 系数 ca ,a 中 了 。 这 样 ,我 们 发 现 p(x1D) 是 一 个 
指数 函数 ,其 中 的 指数 部 分 为 的 二 次 型 。 也 就 是 说 , 训 (A| 了) 实质 上 还 是 一 个 正 态 分 布 。 因 
为 这 一 事实 对 任意 大 小 的 样本 集 均 成 立 , 因 此 pu DERRETE 增加 时 仍 保 持 正 态 分 布 。 
我 们 把 p(y1D) 称 为 复制 密度 (reproducing density) M% , JE p GO RAF HEE (conjugate 
prior) 。 如 果 写 成 下 面 的 形式 :ply|1D)~NCp,0;), 也 就 是 


1 | 工 ( 人 一 Ar 
P(ulP) 一 V2no, a|- ( On ) | (30) 


那么 对 公式 (29) 和 公式 (30) 应 用 对 应 项 相等 的 原则 ,就 可 以 求 得 上 和 am 











n 
= — + — 
= Gita (31) 
和 
Mn _ | Mo 
Gis gin t (32) 


其 中 ,wu 是 样本 均值 


、 1 
fin = — Dm (33) 
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=( no ) fin + il H (34) 
a nog +o? me nog +o? p ` 
和 
ae) 
a 
= (35) 
nog +o 


上 述 方程 显示 了 先 验 知识 和 样本 观测 结果 是 如 何 被 结合 在 一 起 ,并 且 形 成 后 验 密度 
PUID. ERLE, 代表 了 在 观察 到 个 样本 后 ,我 们 对 w 的 真实 值 的 最 好 的 估计 ,而 
On 反映 了 我 们 对 这 个 估计 的 不 确定 程度 。 根 据 公 式 (35) ,将 看 到 ,于 是 ”的 单调 递减 函数 ,并 
且 在 nn 趋 于 无 穷 大 时 ,or 趋 于 of/n, 也 就 是 说 ,每 增加 一 个 观察 样本 ,我 们 对 的 估计 的 不 确 
定 程 度 就 能 减少 。 当 nn 增加 时 ,p(y1D) 的 波形 变 得 越 来 越 尖 , 并 且 在 n 趋 于 无 穷 大 时 ,逼近 于 
狄 拉克 函数 。 这 一 现象 通常 就 被 称 为 贝 叶 斯 学 习 过 程 ( 图 3-2). 


PHIX X, coat Xn) 
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图 3-2 左右 两 图 表示 了 分 别 对 一 维和 二 维 情况 下 的 正 态 分 布 的 均值 进行 贝 叶 斯 学 习 的 过 程 。 每 
一 个 后 验 概率 分 布 的 估计 曲线 旁边 都 标记 有 估计 过 程 中 所 使 用 的 训练 样本 个 数 


根据 公式 (34) ,我 们 知道 ,在 通常 情况 下 ,x BE, 和 yp。 的 线性 组 合 ,两 者 的 系数 均 为 非 
负 , 并 且 和 为 1。 也 就 是 说 ,p MF y, 和 po 的 连 线 上 。 如 果 m 和 0, 则 当 ” 趋 于 无 穷 大 时 ,六 
趋 近 于 样本 均值 。 如 果 0 二 0, 这 是 一 种 退化 的 情况 ,也 就 是 说 ,我 们 对 先 验 估计 x。 是 如 此 确 
信和 ,以 至 于 任何 观察 样本 都 无 法 改变 我 们 的 态度 。 在 另 一 种 极端 情况 中 ,如 果 oo RE 
说 ,我 们 对 先 验 估计 m 是 如 此 的 不 确信 ,以 至 于 我 们 直接 把 样本 均值 上 当 作 了 yx。 总 的 来 说 ， 
先 验 知 识 和 经 验 数据 各 自 的 贡献 之 间 的 平衡 取决 于 vw 和 的 比值 ,这 个 比值 被 称 为 “决断 因 
子 ”dogmatism) 。 如 果 该 值 不 是 无 穷 大 ,那么 当 获 得 了 足够 的 样本 后 ,mw ,ai 的 具体 数值 的 精 
确 假定 就 变 得 无 关 紧 要 了 ,同时 总 AATE A. 
3.4.2 单 变量 情况 :p(x |D) 

在 得 到 了 均值 的 后 验 密度 p(y|1D) 之 后 ,就 可 以 计算 类 条 件 概率 密度 pal DTe., ME 
式 (25),(26),(30) ,我 们 得 到 


O ”这 里 ,请 读者 回忆 我 们 省 略 了 类 别 标 记 , 因 此 这 里 的 pix TORE LE pala D). 
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p(x|D) = | P(x|w)p(ulD) du 
= [ fi (E oli (eey | 
ro a) o WOLT A P| 2 On j 


l 
~ OG exp| -3 o? +0? | f (0, On) (36) 


2 2 2 2 2 
C | 
也 就 是 说 ,作为 xz 的 也 数 ,类 条 件 概 率 密度 函数 pal DEF 
exp[ —(1/2)(x—p,)?/(e +02) ] 
因此 p(x1D) 是 一 个 正 态 分 布 ,均值 为 As FHA +o, Bp 
p(x|D) ~ NO a +07) (37) 
也 就 是 说 ,为 了 得 到 类 条 件 概率 密度 函数 p(x|D) ,其 参数 形式 为 已 知 的 (zl 一 NA )， 
我 们 只 需 用 jy 替换 六 ,用 到 十 只 PR’ 就 可 以 了 。 在 效果 上 ,x 被 当 作 4 的 真实 值 看 待 ,而 
这 时 的 方差 比 起 Oo 来 说 相对 增加 了 ,原因 是 我 们 对 均值 & 的 不 确定 性 增加 了 对 工 的 不 确定 
性 。 这 就 是 最 终 的 结果 :p(xz|1D) 就 是 类 条 件 概 率 密度 函数 p(x|w,D;), 结 合 先 验 概率 
Pa) ,我 们 就 完全 掌握 了 设计 贝 叶 斯 分 类 器 所 需 的 概率 知识 。 在 这 点 上 , 贝 叶 斯 估计 方法 与 
最 大 似 然 方法 不 同 , 因 为 最 大 似 然 方法 只 是 估计 和 o? 的 值 ,而 不 是 估计 plz|D) 的 分 布 。 
3.4.3 多 变量 情况 
对 于 多 变量 的 情况 ,在 协 方差 矩阵 厂 已 知 ,而 均值 py 未知 的 情况 下 ,并 不 能 把 单 变量 的 结 
果 作 简单 的 推广 。 我 们 在 这 里 将 大 略 的 描述 分 析 的 过 程 。 如 同一 维 的 情况 ,我 们 假设 : 
pixi) ~ N(w,d) H PR) ~ N(po, Xo) (38) 
HP lr. De 均 假设 为 已 知 。 在 观测 到 样本 集 D 中 的 nn 个 互相 独立 的 样本 X ,xz ，……，x 后 ， 
我 们 使 用 贝 叶 斯 公式 ,得 到 


plp1D) =a] | pwp) 
k=] 














其 中 





— ry” 1l f ~] 一 1 f 一 ] = 一 | 
= ex} 5 (1 (n£ + Xo ) p 2p (= 2% + 20 wo) ) (39) 
进行 配方 和 变量 代 换 ,上 式 可 以 简化 表示 为 
| 
p(p|D) = a'exp| -ie — pen) È; (M — pn) (40) 


这 样 PIDAN, En) ,并 且 再 一 次 的 ,我 们 又 得 到 了 复制 概率 密度 。 对 式 (39) 和 式 (40) 
应 用 对 应 项 相等 的 原则 ,得 到 分 别 类 似 于 式 (34), 式 (35) 的 等 式 
Yi =ni + Eg) (41) 
和 
E'un = nd! f+ Eo po (42) 
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Hep pw, 是 样本 均值 
pen 一 1 Xox (43) 
n =i 
在 对 上 述 的 几 个 方程 求解 均值 & 和 协 方差 矩阵 D, 时 ,需要 用 到 恒等式 
(A7'+B')"'=A(A+B)'B=B(A+B)'A (44) 
(其 中 和 矩阵 A BIA d xda 的 非 奇异 矩阵 ) 经 过 一 些 推导 (习题 16) ,进一步 解 得 
| 一 | 
Hn = Xo (žo + ix) pin + ls (x. + x) Ho (45) 
n n n 
(这 个 公式 很 像 一 维 时 4, Ale, 的 线性 组 合 公 式 ) 和 
一 ] 
S, = Io (2o + x) ls (46) 
n n 
如 果 我 们 利用 积分 
p(x|D) = | PIDPH) dps (47) 


那么 可 以 进一步 证 明 : p(x|D)~N(w,,54+23,) (证 明 过 程 略 )。 然 而 ,这 一 结果 可 以 用 另 一 种 
简单 的 方法 来 得 出 :因为 x 可 以 看 成 两 个 互相 独立 的 随机 变量 的 和 ,其 中 一 个 变量 为 服从 
PHI D)~NH, DORTE 4, 男 一 个 变量 为 独立 随机 变量 y 服从 分 布 p(y) ~NO,D). B 
为 两 个 独立 的 正 态 分 布 的 向 量 随 机 变量 的 和 仍然 为 一 个 正 态 分 布 的 向 量 , 其 均值 为 各 自 均值 
的 和 ,其 协 方差 矩阵 为 各 自 协 方差 窍 阵 的 和 (第 2 章 , 习 题 17) ,我 们 就 得 到 
PAID) ~ N(ptn, & + Zn) (48) 
至 此 为 止 ,我 们 完成 了 对 参数 服从 高 斯 分 布 的 情况 下 ,从 单 变 量 到 多 变量 的 推广 。 


3.5 贝 叶 斯 参数 估计 :一 般 理论 


我 们 已 经 看 到 了 在 多 元 高 斯 分 布 的 情况 下 ,如 何 应 用 贝 叶 斯 估计 方法 去 获得 后 验 概率 
p(x1D)。 在 一 般 情 况 下 ,只 要 未 知 概率 分 布 能 够 被 表示 成 参数 形式 , 则 这 一 一 方法 入 能 得 到 同 
样 的 使 用 。 一 些 基 本 的 假设 如 下 : 

。 条 件 概 率 密 度 晒 数 p(x|9) 是 完全 已 知 的 ,虽然 参数 向 量 8 的 具体 数值 未 知 。 

。 参数 向 量 8 的 先 验 概率 密度 区 数 p (09) 包含 了 我 们 对 于 9 的 全 部 先 验 知识 

。 其 余 的 关于 参数 向 量 0 的 信息 就 包含 在 观察 到 的 独立 样本 x ,xs ，… ,x 中 ,这 些 样本 都 

服从 未 知 的 概率 密度 函数 p(x)。 

最 基本 的 问题 就 是 计算 后 验 概率 密度 洱 数 p(8|D), 因 为 一 旦 求 得 后 验 概率 密度 函数 

p(O|D) ,我 们 就 可 以 利用 式 (25) 来 计算 p(x|D): 


p(x|D) = J p(x|6)p(8\D) dO (49) 


根据 贝 叶 斯 公式 ,我 们 有 


p(D|8) p(@) 


aD) = Co——  —— 
PCD) = T D6) p(@) do 


(50) 


再 根据 样本 之 间 的 独立 性 的 假设 ,我 们 有 
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p(D\@) = | | p(x 16) (51) 
k=] 


这 就 完成 了 对 问题 的 正式 解答 。 同 时 , 式 (50) 和 式 (51) 半 明了 与 最 大 似 然 估 计 之 间 的 关 
A. 假设 p(D|O) fe 6=6 处 有 一 个 非常 尖 的 峰值 。 如 果 先 验 概率 p OE 9 一 和 处 非 零 ,并 且 
在 周围 的 某 一 邻 域 内 变化 不 大 ,那么 p(0i 了 DD) 也 在 同一 地 方 有 一 个 峰值 。 这 样 , 式 (49) 表 明了 
p(x|D) RUF p(x 的 ,而 这 一 结果 也 正 是 根据 最 大 似 然 方法 得 到 的 结论 。 如 果 pC(D19) 的 
峰值 非常 尖 , 那 么 先 验 知识 中 对 8 的 真实 值 的 不 确定 性 几乎 可 以 忽略 。 在 这 个 情况 下 (也 包括 
其 他 的 更 为 一 般 的 情况 ) ,是 贝 叶 斯 估计 方法 而 不 是 最 大 似 然 估计 方法 ,告诉 我 们 如 何 根据 所 
有 的 现 有 信息 来 计算 条 件 概率 密度 晒 数 al D). 

到 此 为 止 , 我 们 已 经 得 到 解 ,但 是 还 有 许多 有 趣 的 问题 值得 进行 研究 。 其 中 的 一 个 问题 就 
是 执行 这 些 计算 的 复杂 度 如 何 。 另 一 个 问题 是 p(x1D) 能 否 可 靠 的 收敛 到 真正 的 p(x), UR 
收 钙 速度 问题 。 下 面 我 们 将 简要 的 讨论 收敛 性 间 题 ,然后 在 后 面 的 3.7. 2 节 中 ,将 进一步 讨论 
计算 复杂 度 这 一 重要 问题 。 

为 了 明确 地 表示 集合 中 已 有 的 样本 个 数 ”我 们 采用 这 样 的 记号 : = (xx sex} 
然后 ,根据 公式 (51) ,如 果 n> 1 ,那么 我 们 有 

P(D"19) = p(x„|0)p(D"'10) (52) 
将 上 式 代 入 公式 (50) ,并 且 结 合 由 叶 斯 公式 ,我 们 能 够 得 到 下 面 的 结果 : 
n P(Xn|0) p(0D"—) 

peP) = J p(x,|0) p(@|D"-') de 

注意 , 当 尚未 有 观测 样本 时 , 令 p(O@(D)=p(@), Rig LIAAR, BEER 
概率 密度 明 数 :pC(0) ,zx ) ,zx xs) 等 等 。 这 一 过 程 被 称 为 参数 估计 的 递归 的 中叶 斯 
方法 (recursive Bayes approach) 。 这 是 我 们 遇 到 的 第 一 个 “ 增 量 学 习 ”(incremental learning) 
或 在 线 学 习 算 法 ,其 特点 是 学 习 过 程 随 着 观察 数据 的 不 断 获 得 而 不 断 进 行 。 如 果 这 一 梳 率 密 
度 函 数 的 序列 最 终 能 够 收敛 到 一 个 中 心 在 参数 的 真实 值 附近 的 狄 拉克 函数 ,那么 就 实现 了 贝 
叶 斯 学 习 过 程 (例题 1) 。 当 然 ,我 们 还 将 遇 到 许多 非 增 量 的 学 习 方法 ,其 中 所 有 的 训练 样本 必 
须 在 学 习 过 程 开 始 前 就 全 部 获得 。 

在 原则 上 ,为 了 计算 p(0|D" ) ,等 式 (53) 要 求 保留 DP” 中 的 所 有 训练 点 。 然 而 ,对 于 某 些 
分 布 ,可 能 几 个 与 POD ) 相 关 的 参数 的 估计 就 足以 包含 所 需 的 全 部 信息 了 。 这 样 的 参数 
馈 称 为 对 应 与 某 个 特定 分 布 的 充分 统计 量 (sufficient statistics) ,我 们 将 在 节 3.6 中 展开 详细 
的 讨论 。 有 些 书 的 作者 认为 “递归 学 习 ”(recursive learning) 这 一 概念 特 指 只 使 用 某 种 充分 统 
计量 ,而 不 是 训练 样本 本 身 的 的 情况 ,而 在 本 书 中 ,我 们 把 这 种 特殊 情况 称 为 “真正 的 递归 贝 叶 


斯 学 习 ”(true recursive Bayes learning) 。 


(53) 


例 1 递归 的 贝 叶 斯 学 习 

首先 ,假设 认为 一 维 样本 都 服从 均匀 分 布 

PD ~ UOD= i 0 S 
但 是 ,最 初时 ,我 们 只 知道 参数 8 是 有 界 的 ,而 其 具体 数值 未 知 。 比 如 ,可 以 假设 OSKR 


在 方 3.5.2 中 将 进一步 讨论 这 种 无 信息 的 或 “ 平 * 的 先 验 概率 )。 采 用 递归 贝 叶 斯 学 习 方法 来 估 


计 8 和 概率 密度 孙 数 p(x)。 已 有 样本 集 为 D={4,7,2,8) ,其 中 每 一 个 样本 都 是 独立 的 从 概率 密 
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度 p(x) 中 抽取 的 。 一 开始 ,在 尚未 有 任何 样本 到 达 之 前 ,我 们 有 pD F) = p(® =U(0, 10), 

然后 ,第 一 个 样本 到 达 :zi 一 4。 我 们 使 用 等 式 (53) 来 得 到 一 个 改善 了 的 如 下 估计 
p(OID') « p(xlg)p(61D0) =| a eh 10 
《在 这 里 的 全 部 过 程 中 ,为 说 明 问 题 的 简便 起 见 , 我 们 将 忽略 归 一 化 问题 ) 然 后 第 二 个 数据 
zz 一 7 到 达 , 我 们 有 
1/6? 7<6<10 
0 其 他 
ORE ,对 于 后 面 到 达 的 所 有 样本 都 可 以 进行 同样 的 处 理 。 这 里 ,应 该 注意 :由 于 每 一 次 递归 都 
将 引入 系数 因子 :17/0, 并且 分 布 仅 对 大 于 最 大 的 样本 值 的 区 间 才 非 零 , 即 p(90|D*)cc1/ ,对 
F max p |ISO0<10, in F APR aR. 

pD’) 


p(@|D2) « p(xl6)p(8ID1 = | 








使 用 了 题 设 中 给 出 的 全 部 样本 之 后 ,最 大 似 然 估计 得 出 的 结果 为 9=8, 也 就 是 说 这 是 一 
个 均匀 分 布 : 冯 zl 了 ) 一 (0,8)。 图 中 表示 了 使 用 此 例 中 的 模型 和 数据 集中 的 ”个 样本 点 个 
计 得 到 的 后 验 概率 密度 函数 p (901D" )。 对 于 ”一 0 的 情况 ,后 验 概率 密度 函数 是 位 于 0 到 10 之 
间 的 均匀 分 布 ,用 冯 O) 一 U(0,10) 来 表示 。 当 有 更 多 的 样本 加 进来 时 ,后 验 密度 的 估计 就 在 最 
大 的 样本 点 处 形成 了 尖峰 。 

根据 贝 叶 斯 方法 ,使 用 公式 (49) 的 积分 ,得 到 的 概率 密度 函数 pal DEA z=8 都 是 均 
勺 分布, 但 对 于 更 高 的 和 0 值 , 则 有 一 个 小 的 拖 尾 (如 下 锅 所 示 ) ,这 表明 我 们 的 先 验 估计 pCO) 中 
的 信息 尚未 被 训练 样本 所 全 部 覆盖 掉 。 


PAxID) 
ML 
0.1 贝 叶 斯 
0 x 
0 2 4 6 8 10 


对 于 给 定 的 4 个 样本 点 的 集合 ,使 用 最 大 似 然 法 求 得 的 概率 密度 函数 为 :(zl0) 一 U(C0,8) 。 
然而 ,使 用 贝 叶 斯 方法 得 到 的 分 布 则 在 z=8 处 留 有 一 个 拖 尾 ,这 说 明 先 验 知识 的 影响 仍然 存 
在 , 即 告诉 我 们 在 c= 10 附近 ,概率 密度 函数 仍然 可 能 非 零 。 

与 最 大 似 然 法 (ML 法 ) 不 同 的 是 ,ML 法 估计 的 是 6 空间 中 的 一 个 点 ,而 贝 叶 斯 方法 估计 
的 则 是 一 个 概率 分 布 。 因 此 严格 地 说 ,在 技术 本 身 , 我 们 不 能 直接 比较 这 两 种 方法 。 只 有 在 计 
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算 概率 密度 函数 p(z|1D) 时 (如 上 图 所 示 ), 才 可 能 进行 一 个 公平 的 比较 。 


i 对 于 通常 能 遇 到 的 典型 的 条 件 概 率 密度 函数 pa] 8) ,后 验 概 率 密 度 函 数 序列 一 般 都 能 收 

化 到 狄 拉克 函数 。 因 此 ,这 就 意味 着 :只 要 训练 样本 的 数量 足够 多 ,就 能 够 确定 惟一 的 一 个 最 
适合 这 些 训练 样本 的 6 的 值 。 也 就 是 说 ,参数 8 能 被 条 件 概率 密度 函数 p(x|9) 惟 一 确定 。 在 
这 种 情况 下 ,概率 密度 函数 p(x|) 被 称 为 可 辨识 的 (identifiable)。 这 一 性 质 的 严格 证 明 需 要 
确切 知道 概率 密度 函数 p(x 人 和 p(90) 的 形式 ,但 证 明 过 程 本 身 并 不 是 十 分 困难 的 (请 参见 习 
题 21), 

然而 ,的 确 存 在 这 样 的 情况 , 即 不 同 的 8 值 ,而 产生 的 p(x19) 都 相同 。 在 这 种 情况 下 ,6 不 
能 由 p(x|9) 惟 一 确定 ,并 且 p(x1D" ) 将 在 所 有 可 能 的 8 值 的 附近 都 形成 尖峰 。 然 而 幸运 的 
是 ,这 种 可 能 的 不 确定 性 并 不 会 带 来 严重 后 果 , 因为 在 公式 (25) 中 ,参与 运算 的 概率 密度 函数 
zxi0) 对 所 有 可 能 的 9 值 都 相同 。 也 就 是 说 ,无 论 条 件 概率 密度 函数 p(x19) 是 可 辨识 与 否 ， 
PAID ) 总 是 会 收敛 到 如 (x) 。 然 而 ,这 种 不 确定 性 总 是 客观 存在 的 ,并 且 , 在 第 10 章 , 我 们 将 
看 到 在 无 监督 学 习 中 ,这 个 可 辨识 问题 就 成 了 一 个 非常 值得 讨论 的 问题 。 

3.5.1 最 大 似 然 方法 和 贝 叶 斯 方法 何 时 有 区 别 

对 于 先 验 概率 能 保证 问题 有 和 解 的 情况 下 ,最 大 似 然 估 计 和 贝 叶 斯 估计 在 训练 样本 趋 近 于 
无 穷 时 效果 是 一 样 的 。 然 而 ,在 实际 的 模式 识别 问题 中 ,训练 样本 总 是 有 限 的 ,因此 ,我 们 很 自 
然 地 就 会 问 :在 什么 时 候 , 最 大 似 然 估计 和 贝 叶 斯 估计 这 两 种 方法 将 表现 出 不 同 ,并 旦 在 这 种 
情况 下 ,我们 应 该 选取 哪 一 种 方法 。 

决定 我 们 的 选择 的 标准 有 如 下 几 个 :其 中 的 一 个 标准 ,就 是 所 使 用 的 方法 的 计算 复杂 度 
(具体 请 参见 3. 7. 2 节 )。 在 这 个 标准 下 ,最 大 似 然 法 是 较 好 的 选择 ,因为 运用 最 大 似 然 法 ,将 
只 涉及 一 些微 分 运算 或 梯度 搜索 技术 以 求 得 @, 而 如 果 采 用 贝 叶 斯 估计 方法 , 则 可 能 要 求 计算 
非常 复杂 的 多 重 积 分 。 

这 又 引出 了 为 一 个 标准 ;可 理解 性 。 在 许多 情况 下 ,最 大 似 然 法 要 比 贝 叶 斯 估计 方法 更 容 
昂 理解 和 掌握 ,因为 它 得 到 的 结果 是 基于 设计 者 所 提供 的 训练 样本 的 一 个 最 佳 解答 ,而 贝 叶 斯 
估计 方法 得 到 的 结果 则 是 许多 可 行 解答 的 加 权 平 均值 ,反映 出 对 各 种 可 行 解答 的 不 确定 程度 ， 
这 就 使 得 贝 叶 斯 估计 方法 比 最 大 似 然 估计 方法 更 难于 直观 理解 。 也 就 是 说 , 贝 叶 斯 估计 方法 
的 结果 反映 出 对 所 使 用 的 模型 的 剩余 的 不 确定 性 。 

万 一 个 选择 的 标准 是 我 们 对 初始 的 先 验 知识 的 信任 程度 ,比如 对 概率 密度 函数 p(x| 人 的 
形式 。 最 大 似 然 估 计 得 到 的 结果 p(x|1 人 0) 的 形式 是 与 初始 假设 的 形式 一 致 的 。 而 这 一 点 对 于 
贝 叶 斯 估计 就 未 必 成 立 。 就 像 例 1 中 一 样 ,p(xz1D) 的 初始 假设 为 一 个 均 句 分布, 而 贝 叶 斯 估 
计 得 到 的 结果 p(x| 介 的 形式 却 与 初始 假设 的 形式 不 同 。 总 的 说 来 ,通过 使 用 全 部 p(9|D) 中 
的 信息 , 贝 叶 斯 估计 方法 比 最 大 似 然 方法 能 够 利用 更 多 有 用 的 信息 (例如 ,在 例 1 中 ,第 3 个 样 
本 的 到 达 对 最 大 似 然 佑 计 的 结果 没有 影响 ,而 对 贝 叶 斯 估计 的 结果 却 能 够 产生 更 新 ) 。 如 果 这 
些 信息 是 可 靠 的 话 ,那么 我 们 有 理由 认为 贝 叶 斯 估计 方法 比 最 大 似 然 估计 方法 能 够 得 到 更 准 
确 的 结果 。 而 且 , 在 没有 特别 的 先 验 知识 的 情况 下 (例如 均匀 分 布 ,或 称 为 “ 平 ” 的 分 布 ), 贝 叶 
斯 估计 方法 与 最 大 似 然 估计 方法 是 很 相似 的 。 并 且 , 如 果 有 非常 多 的 训练 样本 ,使 得 p(0|D) 
形成 一 个 非常 显著 的 尖峰 ,而 先 验 概率 加 (6) 又 是 均匀 分 布 , 那 么 前 面 所 说 的 MAP 估计 在 本 
质 上 也 是 与 最 大 似 然 和 估计 相同 的 。 

然而 ,如 果 p(8|D) 的 波形 比较 宽 , 或 者 在 台 附 近 是 不 对 称 的 (这 一 不 对 称 性 并 不 是 因为 
选取 训练 样本 的 过 程 而 造成 的 ,而 是 问题 本 身 所 决定 的 ) ,那么 ,最 大 似 然 估计 和 贝 叶 斯 估计 产 
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生 的 结果 就 不 相同 了 。 通 常 , 非 常 明显 的 不 对 称 性 显然 表示 了 分 布 本 身 的 蘑 种 特点 。 贝 叶 斯 


方法 能 够 利用 这 些 特点 ,而 最 大 似 然 法 却 忽 略 了 这 些 特点 。 而 且 , 贝 叶 斯 佑 计 方 法 对 偏差 和 方 
差 之 间 的 折 中 研究 的 更 加 透彻 ,而 这 一 折 中 是 与 训练 样本 的 个 数 密切 相关 的 。 这 个 问题 在 
第 2 章 的 分 类 器 设计 中 并 不 是 很 严重 ,因为 第 2 章 中 ,我 们 总 是 能 够 布 望 训练 样本 个 数 非常 巨 
大 。 而 这 一 问题 在 第 9 章 的 机 髓 学 习 理论 中 就 变 得 非常 重要 了 ， 

当 使 用 最 大 似 然 估 计 或 贝 叶 斯 估计 的 结果 设计 分 类 费时 ,采用 的 还 是 第 2 章 所 讲述 的 方 
法 :我 们 对 每 一 类 别 都 计算 后 验 概率 密度 函数 ,并 且 根 据 最 大 后 验 概 率 对 测试 样本 进行 分 类 。 
《如果 还 知道 风险 和 矩阵 ,那么 我 们 也 能 够 考虑 进 分 类 风险 所 带 来 的 影响 )。 

使 得 系统 产生 的 最 终 分 类 误差 的 来 源 有 如 下 几 个 : 

贝 叶 斯 误差 (或 不 可 分 性 误差 ) 这 一 分 类 误差 是 由 于 不 同 的 类 条 件 概 率 密度 图 数 
p(x|w;) 之 间 的 互相 重合 引起 的 。 这 种 分 类 误差 是 问题 本 身 所 固有 的 ,因此 永远 无 法 消除 。 

模型 误差 ”由 于 选择 了 不 正确 的 模型 所 导致 的 分 类 误差 。 只 有 当 设 计 分 类 器 时 ,设计 的 
模型 形式 中 包括 了 正确 的 模型 的 时 候 , 这 一 误差 才 可 能 消除 。 然 而 ,设计 者 总 是 根据 对 问题 的 
先 验 知识 和 理解 来 选择 模型 ,并 不 是 在 后 续 的 估计 过 程 中 选择 模型 。 因 此 ,这 一 误差 在 最 大 似 
然 和 贝 叶 斯 估计 中 的 影响 都 是 类 似 的 。 

估计 误差 这 是 由 于 采用 有 限 样本 进行 估计 所 带 来 的 误差 。 这 一 误差 的 影响 可 以 用 增加 
训练 样本 个 数 的 方法 来 减 小 。 

这 3 种 误差 各 自 对 整个 问题 的 影响 程度 是 因 问 题 而 异 的 。 如 果 能 够 使 用 无 限 多 的 样本 ， 
那么 估计 误差 就 能 够 消除 ,因此 这 时 全 部 的 分 类 错误 对 于 最 大 似 然 估计 和 贝 叶 斯 估计 来 说 都 
是 一 样 的 。 

综 上 所 述 , 在 理论 上 , 贝 叶 斯 估计 方法 有 很 强 的 理论 和 算法 基础 。 但 在 实际 应 用 中 ,最 大 
似 然 佑 计 更 加 简便 ,而且 ,设计 出 的 分 类 器 的 性 能 几乎 与 贝 叶 斯 方法 得 到 的 结果 相差 无 几 。 
3.5.2 无 信息 先 验 和 不 变性 | 

总 的 说 来 ,关于 p(0) 的 先 验 知识 来 自 设计 者 对 具体 问题 的 理解 和 掌握 ,这 其 实 是 超出 了 
分 类 器 设计 的 范畴 。 然 而 ,在 某 些 情况 下 ,还 是 有 一 些 原 则 ,这 些 原 则 能 够 使 我 们 对 先 验 概率 
分 布 pO KRRASH FRR. RMS TAR 无 信息 先 验 ( 知 识 ) ”的 概念 。 

在 第 2 章 中 ,在 处 理 每 一 类 别 的 先 验 概率 时 ,如 果 没 有 其 他 的 特别 信息 ,那么 我 们 都 简单 
地 假设 每 一 类 的 概率 相同 。 类 似 地 ,在 贝 叶 斯 估计 方法 中 ,我 们 对 每 一 个 参数 也 有 一 个 无 信息 
的 先 验 估计 。 假 设 我 们 要 使 用 贝 叶 斯 方法 从 一 组 训练 样本 中 估计 其 位 置 参 数 K 和 尺度 参数 o 
(例如 ,对 于 高 斯 分 布 ,这 两 个 参数 就 是 均值 和 标准 差 , 对 于 三 角形 分 布 ,这 两 个 参数 就 是 中 心 
位 置 和 宽度 ,等 等 )。 对 于 这 两 个 参数 ,我 们 应 该 做 怎么 样 的 先 验 假设 呢 ? 

首先 考虑 位 置 参数 xy。 显然 ,我 们 要 求 这 个 先 验 分 布 不 依赖 于 原点 的 具体 位 置 ,也 就 是 
说 ,我 们 对 位 置 参数 w 要 求 具有 平移 不 变性 。 有 这 样 的 平移 不 变性 的 惟一 分 布 就 是 在 整个 一 
维 空间 内 的 均匀 分 布 。 当 然 ,这 个 分 布 其 实 是 不 合适 的 ,因为 这 样 就 会 有 


| add = 00 


其 次 ,对 于 尺度 参数 的 分 布 p(o) 的 先 验 假设 应 该 是 什么 呢 ? 显然 ,空域 度量 的 单位 一 一 
米 、 英 尺 、 英 寸 一 一 应 该 与 先 验 概率 的 形式 无 关 , 也 就 是 说 ,我 们 要 求 尺度 参数 o 具有 尺度 不 变 
性 。 考 虑 一 个 新 的 变量 ,o 二 In。 如 果 o 被 一 个 正 的 系数 a 所 改变 大 小 , 即 o 一 aa, 这 就 使 得 新 
的 变量 产生 了 一 个 平移 : 
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ao —>Ina+Ino = Ina +o 
平移 

这 样 ,如同 对 位 置 参 数 pe 的 要 求 一 样 ,我 们 要 求 c 对 所 有 可 能 的 值 都 有 均匀 分 布 ,也 就 是 
要 求 尺 度 参 数 o 必须 具有 如 下 分 布 (习题 20); 

p(o) = 1/0 (55) 
当然 ,这 样 的 分 布 也 是 现实 中 无 法 实现 的 。 

总 的 说 来 ,如 果 已 经 知道 必须 满足 的 不 变性 ,例如 ,平移 不 变性 ,或 对 离散 分 布 要 求 样 本 选 
取 的 顺序 的 无 关 性 ,那么 就 会 对 先 验 概率 的 可 能 具有 的 形式 带 进 约束 。 如 果 我 们 能 找到 满足 
这 种 约束 的 分 布 ,那么 最 后 的 结果 就 称 为 对 这 些 不 变性 要 求 是 “无 信息 的 ”。 

我 们 容易 认为 使 用 无 信息 的 先 验 分 布 形式 能 够 达到 客观 性 , 即 样本 本 刁 能 发 挥 出 最 大 的 
作用 ,但 这 种 想法 还 是 欠 考 虑 的 。 比 如 ,在 估计 一 个 高 斯 分 布 的 标准 差 o 时 ,我 们 希望 保证 先 
验 分 布 是 无 信息 的 ,但 是 这 样 的 保证 这 并 不 能 使 得 of 也 是 无 信息 的 。 那 么 究竟 应 该 怎么 做 
呢 ? 事实 上 ,这 一 概念 的 最 大 作用 是 使 得 设计 者 能 够 认识 到 不 变性 这 个 问题 的 本 身 ,而 关于 具 
体 应 该 如 何 选取 分 布 则 超出 了 本 书 的 范围 。 对 于 MAP 估计 咽 , 要 实现 不 变性 将 更 为 困难 。 
因此 ,在 贝 叶 斯 估计 方法 中 ,不 变性 的 考虑 是 非常 有 用 的 。 

3.5.3 吉 布 斯 算法 

在 上 文 所 述 的 假设 条 件 下 , 贝 叶 斯 最 优 分 类 器 能 够 达到 最 佳 的 分 类 效果 。 然 而 ,等 式 (25) 
中 的 积分 可 能 是 非常 复杂 的 。 为 了 降低 难度 ,一 个 变通 的 方法 是 依据 pO DRN RA 
BMWS 9, 并 且 就 把 它 当 作 真 实 值 , 这 就 是 吉 布 斯 (Gibbs) 算 法 。 在 较 弱 的 假设 条 件 下 , 吉 布 
斯 算法 的 误差 概率 至 多 是 贝 叶 斯 最 优 分 类 器 的 两 倍 (习题 22) 。 


“3.6 充分 统计 量 


从 实际 计算 的 观点 来 说 ,应 用 等 式 (49) 至 等 式 451)? 所 提供 的 标准 解法 ,由 于 计算 复杂 度 
高 ,因此 不 是 一 种 特别 有 吸引 力 的 途径 。 在 模式 识别 的 实际 应 用 领域 , 几 十 个 甚至 上 百 个 参数 
和 数 千 个 训练 样本 的 情况 都 是 司空 见 惯 的 ,这 人 么 大 的 数据 量 使 得 应 用 标准 解法 求 pp (CD | Oa 
p(61DD) 是 根本 不 在 考虑 之 列 的。 在 第 6 章 中 ,我 们 将 学 习 神 经 网 络 分 类 方法 ,能 够 处 理 如 此 
庞大 的 维 数 和 数据 量 的 问题 。 但 是 , 目前 我 们 寻求 的 是 一 种 解析 的 并 且 可 实现 的 用 于 求 
p(x19) 的 参数 形式 的 方法 ,要 求 一 方面 能 够 满足 问题 的 要 求 , 另 一 方面 又 能 够 切实 可 用 ， 

考虑 在 对 一 个 多 元 高 斯 密度 的 参数 学 习 问 题 中 的 简单 处 理 过 程 。 其 中 所 涉及 的 数据 处 理 
仅仅 是 计算 样本 均值 和 样本 协 方差 。 这 些 很 容易 计算 和 更 新 的 统计 量 就 已 经 包含 了 样本 中 能 
够 被 用 于 估计 未 知 均值 和 协 方差 的 所 有 信息 。 人 们 容易 猜测 这 种 简单 的 处 理 只 是 正 态 分 布 所 
带 来 的 优良 特性 ,在 别 的 情况 下 ,这 种 简单 的 处 理 就 不 再 适用 了 。 事 实 上 ,这 种 猜测 基本 上 是 
正确 的 。 但 是 ,确实 还 存在 一 些 分 布 , 也 能 够 获得 计算 上 非常 可 行 的 一 些 解法 。 这 一 问题 的 关 
键 就 是 “充分 统计 量 ”(sufficient statistic) 这 一 概念 。 

首先 ,我 们 把 任何 关于 样本 集 DD 的 函数 都 称 为 一 个 统计 量 。 大 体 上 说 ,一 个 充分 统计 量 就 
是 一 个 关于 样本 集 DD 的 水 数 s( 也 可 能 是 向 量 形式 的 函数 ) ,其 中 包含 了 能 够 有 助 于 估计 某 种 参 
KOO 的 所 有 相关 的 信息 。 从 直 党 上 ,人 们 可 能 希望 对 一 个 充分 统计 量 的 定义 能 够 包含 如 下 的 
给 束 条 件 :p(0|s,D) 二 p(81s) .然而 ,这 样 将 要 求 6 是 一 个 随机 变量 ,而 这 就 把 定义 限制 到 


(54) 


〇 ” 当 必 须 区 分 函数 的 形式 和 它 的 值 时 ,我 们 写作 s=9(D)。 
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只 适合 贝 叶 斯 的 情况 。 为 了 避免 做 这 样 的 限制 ,“ 充 分 统计 量 ” 的 常规 定义 如 下 :一 个 统计 量 s 


对 参数 8 是 充分 的 ,如 果 pC(Dis,9) 与 6 元 关 。 
如 果 把 8 看 作 随 机 变量 , 则 可 以 写成 
p(D\s, 0)p(01s) 


p(0ls, D) = (Dis) (56) 


其 中 ,只 要 s 是 关于 6 的 充分 统计 量 , 式 p(0|s,D) 一 p00|s) 就 能 够 满足 。 反 过 来 ,如 果 统 计量 
s 能 够 使 得 p(@ls,D) = p(O|s) ,并 且 有 pOl R ,那么 容易 证 明 p(Di\s.O5 06 无关 (请 
参见 习题 28)。 这 样 ,直觉 上 的 定义 和 习惯 上 的 定义 在 本 质 上 是 相同 的 。 如 同人 们 可 能 希望 
的 那样 ,对 于 高 斯 形式 的 概率 分 布 , 样 本 均值 和 样本 协 方 差 组 合 在 一 起 就 构成 了 对 真实 的 均值 
和 协 方差 的 一 个 充分 统计 量 。 因 此 ,如 果 样 本 均值 和 样本 协 方差 已 知 , 那 么 其 他 任何 的 统计 
量 , 比 如 幅 值 . 取 值 范围 .高 阶 矩 .样本 点 的 个 数 等 等 样本 集 的 参数 ,对 于 估计 真实 的 均值 和 协 
方差 来 说 ,都 是 多 余 的 了 。 

关于 充分 统计 量 的 一 个 最 基本 的 理论 是 因 式 分 解 定 理 (factorization theorem)。 这 个 定 
理 阐述 如 下 :一 个 统计 量 s 是 关于 参数 6 的 充分 统计 量 , 当 且 仅 当 pC(D109) 能 够 被 因 式 分 解 成 
为 两 个 潍 数 的 积 的 形式 ,其 中 的 一 个 阴 数 只 依赖 于 s 和 6, 而 另 一 个 也 数 只 依赖 于 训练 样本 。 

因 式 分 解 定 理 的 贡献 是 告诉 我 们 能 够 把 用 于 定义 充分 统计 量 的 如 (了 |1s,9) 这 个 形式 非常 
复杂 的 概率 密度 函数 ,转化 为 如 下 非常 简单 的 形式 : 


P(DI9) = | | p(x 14) (57) 
k=l 


另外 ,这 个 定理 同时 也 阐明 :一 个 充分 统计 量 能 够 被 概率 密度 函数 p(x|0) 完 全 确定 ,与 先 验 选 
RAFF AAR EEA pCO KX. 

对 于 因 式 分 解 定理 在 连续 情况 下 的 证 明 比 较 需 要 技巧 性 ,因为 其 中 涉及 到 退化 情况 的 处 
理 。 由 于 这 个 理论 的 证 明 过 程 中 有 一 些 内 在 的 令 我 们 感 兴趣 的 东西 ,因此 在 这 里 ,我 们 将 对 于 
简单 的 离散 情况 给 出 一 个 证 明 。 


se 定理 3. 1( 因 式 分 解 定理 ) 一 个 关于 参数 0 的 统计 量 s 是 一 个 充分 统计 量 , 当 且 仅 当 概 率 分 
布 函数 PCD10) 能 够 写成 乘积 的 形式 
P(D|@) = g(s, @)h(D) (58) 

其 中 的 cl, 和 P() 是 两 个 函数 。 
WE RA ` 

(a) 首先 证 明 必 要 性 。 先 假设 s 是 关于 参数 6 的 充分 统计 量 ,因此 P(Dils,6) 不 依赖 于 9。 
因为 我 们 的 目的 是 证 明 已 (|19) 能 够 进行 我 们 所 要 求 的 因 式 分 解 , 因 此 我 们 希望 能 用 
P(D,s10) 的 形式 来 表示 PC(D190) 。 这 可 以 通过 把 P(D,s10) 对 所 有 的 s 值 进行 求 和 来 得 到 

P(D|0) = 》 P(D,slg) 


= 》 P(Dls, 0)P (s0) (59) 


AA sRPE KELEÆEFERDHHRZ, i s= D), AP oOBETERH BRM. WEE-SEW 
P(D\@) = P(Dis, 0) P(s|@) (60) 
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而 且 , 因 为 我 们 已 经 假设 P(D|s,0) 与 8 无 关 , 因 此 ,上 式 右边 的 第 一 项 仅仅 依赖 于 人 DD。 把 


P(s10) 用 gl(s,9) 来 表示 ,我 们 就 能 看 到 这 时 的 PC(D10) 确实 能 够 进行 我 们 所 要 求 的 因子 分 
解 。 
Cb) 证 明 充 分 性 。 为 了 证 明 如 果 P(CD10) 能 够 被 因 式 分 解 成 为 gs OAC HER, WM s 
就 是 关于 参数 8 的 充分 统计 量 ,那么 我 们 就 必须 说 明 这 就 表示 条 件 概率 分 布 函 数 P(CD1s,b0) 不 
依赖 于 90。 因 为 s 王 CD) ,表示 对 某 一 个 特定 的 s 的 值 ,其 所 对 应 的 样本 集 DD 的 可 能 内 容 是 受 
限制 的 ,或 者 用 正规 的 术语 表达 如 下 :D== {D9CD) 二 s} 。 如 果 DD 是 空 集 , 也 就 是 说 ,没有 了 哪 一 
个 样本 集 能 够 产生 统计 量 的 值 s, 此 时 P(s10) 一 0。 如 果 排 除了 这 种 情况 以 后 (也 就 是 只 考虑 
统计 量 s 的 值 是 可 以 取 到 的 时 候 ) ,我 们 有 
_ P(D,s8|6) 
P(D|s, 0) = P(s/@) 


FCP a) op BE OY LAG EIR at POM BT A AT RE EADIE RASS). AAMT FDEDM IB, 4E 
将 为 零 , 我 们 就 把 求 和 的 范围 限制 在 DE 人 DD 中 , 即 





(61) 





P(D\s, 0) =- -LPSO _ PDO) ___ gs, OD) _ hD) 
POSO 2 POIO Y g(s,Oh(D) X h(D) (62) 
DeD DeD DeD DeP 


这 个 表达 式 与 9 无关。 根据 充分 统计 量 的 定义 ,我 们 已 证 明 统 计量 s 对 于 参数 6 是 充分 的 。 


这 里 需要 指出 的 是 ,存在 着 一 些 构造 充分 统计 量 的 非常 简单 直接 的 方法 。 例 如 ,对 于 一 个 
大 小 为 n 的 样本 集 , 我 们 可 以 构造 一 个 n 维 的 向 量 s, 其 中 的 每 一 个 分 量 就 是 对 应 的 样本 :xi， 
xs，,… ,Xs。 在 这 种 情况 下 ,g(s,9) 二 p(D|9) 和 有 h(D)==1。 或 者 我 们 甚至 可 以 用 把 个 样本 的 
十 进 制 表示 的 各 个 数位 交织 起 来 的 技巧 来 构造 一 个 标量 形式 的 充分 统计 量 。 

当然 ,用 这 类 方式 构造 的 充分 统计 量 通常 是 无 意义 的 ,因为 它们 并 不 能 简化 问题 本 身 , 也 
就 是 失去 了 使 用 充分 统计 量 的 意义 。 把 娟 ( 卫 |6) 因 式 分 解 成 为 gsh ERA E R 
数 g 和 充分 统计 量 s 这 两 者 的 形式 都 非常 简单 的 时 候 才 有 意义 。 这 里 需要 指出 ,充分 性 是 一 
种 全 局 性 的 特性 。 也 就 是 说 ,如 果 s 是 关于 参数 8 的 充分 统计 量 , 但 这 并 不 意味 着 s 的 各 个 分 
量 也 是 6 的 各 个 分 量 的 对 应 的 充分 统计 量 。 即 s AO, 的 充分 统计 量 ,* AO, 的 充分 统计 量 ， 
等 等 (为 了 更 好 的 理解 这 一 问题 ,请 参见 习题 27). 

另 一 个 值得 注意 的 明显 的 事实 是 :把 PC(D|9) 因 式 分 解 成 gCs,98)h(D) 的 具体 分 解 形 式 并 
不 一 定 是 惟一 的 。 如 果 f(s) 为 s 的 任意 函数 ,那么 ,我 们 可 以 令 :g (s,0) = f(s) g(s, 8), 
h'(D) 二 h(D)/f(s)。 那 么 ,这 样 的 因 式 分 解 也 是 一 种 可 行 的 因 式 分 解 方法 。 这 种 二 义 性 可 以 
用 定义 核 密度 (kernel density) 图 数 的 方法 来 得 到 消除 ; 

g(s, 0) 

T g(s, 0) d0 (63) 


这 样 定 义 得 到 的 gCs,0) 就 不 受 上 文 的 改变 系数 的 影响 。 

那么 ,充分 统计 量 和 核 密 度 对 于 参数 估计 的 重要 性 在 什么 地 方 呢 ? 一 个 通常 的 回答 就 是 ， 
在 模式 识别 领域 ,经 典 参 数 佑 计 的 最 实用 的 一 些 问题 ,总 是 涉及 概率 密度 函数 ,并 且 这 些 概 率 
密度 都 常常 拥有 简单 形式 的 充分 统计 量 和 简单 形式 的 核 密度 。 而 且 , 对 于 任何 分 类 规则 ,总 是 
可 以 找到 对 应 的 单纯 基于 充分 统计 量 的 分 类 方法 ,而 这 些 分 类 器 通常 具有 相等 或 者 更 好 的 分 
类 效果 。 


8(S, 0) = 





> 
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因此 ,至 少 在 理论 上 ,如 果 能 够 找到 合适 的 充分 统计 量 , 那 么 我 们 就 只 需 基 于 这 个 充分 统 
计量 来 设计 分 类 器 。 从 本 质 上 来 说 ,这 是 一 个 降低 数据 量 的 问题 。 我 们 能 够 把 一 个 巨大 数据 
量 的 集合 用 数据 量 小 得 多 的 充分 统计 量 来 表示 ,并 且 能 够 保证 在 降低 数据 量 的 过 程 中 ,所 有 有 
用 的 信息 都 被 完整 的 保存 了 下 来 。 也 就 是 说 ,我 们 总 是 可 以 用 充分 统计 量 来 构造 贝 叶 斯 分 类 
髓 。 最 好 的 一 个 例子 就 是 :对 于 高 斯 分 布 的 贝 叶 斯 分 类 器 , 仪 仅 依赖 于 充分 统计 量 g 和 三 就 
足够 了 。 

对 于 最 大 似 然 的 情况 ,在 寻找 使 得 pC(D|108) 二 gC(s,0)h(D) 最 大 化 的 8 的 值 时 ,我 们 可 以 只 
关注 g(s,8) 。 在 这 种 情况 下 ,除非 g(s,9) 的 形式 要 比 g(s,9) 简 单 得 多 ,否则 公式 (63) 中 的 归 
一 化 就 没有 什么 价值 。 然 而 , 核 密度 函数 的 重要 性 却 在 贝 叶 斯 学 习 方法 中 得 以 体现 出 来 。 对 
于 公式 (50) ,如 果 用 pCD|O=g¢(s OAD HEAR, RINKS 

g(s, 6) p(@) 
f g(s, 0)p(0) dO 


如 果 我 们 对 于 6 的 先 验 知识 十 分 模糊 或 不 确定 ,那么 p(90) 通 常 就 选择 均匀 分 布 ,或 者 可 以 选 
择 一 个 随 腹 而 变化 非常 缓慢 的 一 个 函数 。 对 于 这 样 近似 于 均匀 分 布 的 p(0) ,公式 (64) 表 明 
PpP(0|D) 几 乎 等 于 核 密度 酒 数 。 粗 略 地 说 ,当先 验 概率 分 布 为 均匀 分 布 时 , 核 密度 函数 为 参数 
问 量 的 后 验 分 布 。 即 使 当先 验 分 布 距离 均匀 分 布 相差 很 多 时 , 核 密度 函数 仍旧 给 出 了 参数 向 
量 的 渐 近 的 分 布 。 特 别 地 , 当 p(xi9) 是 可 辨识 的 ,并 且 样 本 数量 比较 大 时 ,g(s,0) 通 常 在 某 一 
个 6= 处 有 很 明显 的 尖峰 。 如 果 先 验 概率 密度 函数 2(6) 在 6 一 处 连续 ,并 且 p(O)4~0,MA 
P(01D) 将 趋 近 于 核 密 度 渔 数 g(s,90)。 
充分 统计 量 与 指数 族 函 数 

为 了 说 明 如 何 运 用 因 式 分 解 定 理 去 获得 充分 统计 量 ,让 我 们 再 一 次 考虑 已 经 非常 熟悉 的 
具有 已 知 协 方差 和 未 知 均值 的 d 维 正 态 概 率 密度 函数 ,也 就 是 说 :z(xl10) 一 N(C9,Z)。 这 时 ， 
我 们 有 


p(9|D) = (64) 


n 


l 1 
p(Di0) = [| [CE exp -70 — 0) =" (x; 一 J 


k=l 


| ly 
~ Qa ep| -3 2 (28 — 26'S "x + sa 
k=l 


= a| -3020 + Oy"! (È x)| 
k=l 


| i aL 
* (27x )nd/2(¥|n/2 el - 2% | (69) 
这 个 因 式 分 解 的 表达 式 把 p(D | 9) 对 6 的 依赖 性 归于 第 1 项 , 这 样 ,根据 定理 , 我 们 知道 
Fake 是 关于 参数 向 量 9 的 充分 统计 量 。 当 然 ,任何 一 个 关于 >，"_,xi 的 一 一 对 应 的 函数 也 
将 是 9 的 充分 统计 量 。 特 别 地 ,样本 均值 
、 1 
Mn = ~ Dx (66) 
k=] 


也 是 关于 参数 向 量 6 的 充分 统计 量 。 使 用 这 个 充分 统计 量 ,我 们 有 
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2(p,, 0) = exp| —= ("5 6 - 20° -'i,) | (67) 
应 用 公式 (63) , Be Ae a BO Dy, By LA 4S Bi) E E we 
5 (fin, 0) = — lo py (ts) wa 
SHA 0) = Onis) exp| —5 (0 — Bn) (- ) (0 一 Br) (68) 


这 些 结果 很 明显 的 表示 了 Ln 就 是 对 于 参数 向 量 9 的 最 大 似 然 估 计 。 贝 叶 斯 后 验 概率 密 
度 函 数 可 以 通过 对 g(4, ,人 进行 如 公式 (64) 所 示 的 积分 而 得 到 。 如 果 先 验 概率 是 均 名 分布， 
那么 我 们 有 :p81D)==g(4, 8), 

类 似 的 方法 可 以 用 来 对 其 他 类 型 的 概率 密度 函数 计算 充分 统计 量 。 特 别 的 ,这 个 方法 对 
tat SY Te PR AX (exponential family) 都 适用 。 这 些 指 数 族 的 概率 分 布 函数 或 概率 密度 函数 都 具有 
形式 非常 简单 的 充分 统计 量 。 指 数 族 函 数 的 主要 成 员 包 括 高 斯 函数 .指数 函数 、 瑞 利 
(Rayleigh) St. 7A tA Poisson) 函数 ,以 及 其 他 的 各 种 类 似 的 本 数 ，。 它们 都 可 以 用 下 面 的 通用 
形式 来 表示 : 


p(X|0) = a(x) exp [a(@) 十 b(9) cx)] (69) 
如 果 我 们 把 个 具有 式 (69) 的 形式 的 多 个 项 进行 相 乘 ,那么 有 
p(D|0) = exp naco +b(0)' Yew) [lew = g(s, 0)A(D) (70) 
大 一 | k=l 
其 中 可 以 令 
S 一 t > c(x) 
n K=] 
g(s, 0) = exp [n{a(0) + b(6)'s}] 
和 


hD) = | [ev 
k=l 


表 3-1 h TERRA PEE RR BREDER, ENKS AEMET 
的 未 经 归 一 化 的 核 函 数 的 形式 。 

根据 这 些 充分 统计 量 进行 最 大 似 然 估计 或 计算 贝 叶 斯 后 验 分 布 都 是 非常 容易 的 。 当 然 ， 
表 3-1 只 处 理 了 单个 变量 的 情况 。 如 果 在 各 个 变量 之 间 假 设 了 统计 独立 , 则 多 变量 的 情况 也 
能 够 相应 的 得 出 。 注 意 ,一 些 著名 的 概率 分 布 , 比 如 柯 西 分 布 ,并 不 具有 充分 统计 量 ,因此 对 于 
柯 西 分 布 ,样本 均值 和 真正 的 均值 之 间 相 差 得 很 远 (参见 习题 29) 。 


3.7 ER) 


在 实际 的 多 类 别 问 题 中 , 遇 到 包含 多 达 50 或 100 个 (甚至 更 多 ) 特 征 的 问题 是 根本 不 令 人 
惊讶 的 ,尤其 当 这 些 特征 都 是 一 些 二 值 变量 的 时 候 。 通 常 认为 其 中 的 任何 一 个 特征 对 于 实现 
正确 的 分 类 都 有 它 自己 的 贡献 。 但 是 ,有 理由 怀疑 这 些 特征 之 间 是 否 存在 着 相关 性 , 即 , 里 面 
是 否 存 在 着 某 种 信息 的 元 余 。 这 样 ,就 产生 了 两 个 必须 面 对 的 问题 。 首 先 ,也 是 最 重要 的 问题 
就 是 :特征 的 维 数 ( 和 训练 样本 集 的 大 小 ) 对 于 分 类 精度 有 何 影响 。 其 次 ,特征 的 维 数 对 于 设计 
分 类 器 时 的 计算 复杂 度 有 何 影响 。 
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3.7.1 精度 、 维 数 和 训练 集 的 大 小 

如 果 各 个 特征 之 间 是 互相 统计 独立 的 ,那么 已 经 有 一 些 关 于 分 类 精度 的 理论 性 结果 。 例 
如 ,考虑 如 下 的 协 方差 矩阵 相同 的 两 类 多 变量 高 斯 分 布 : pC xl) ~N Co), XD), 7= 1,2. 
如 果 这 两 个 类 别 的 先 验 概率 相同 ,那么 容易 给 出 贝 叶 斯 误差 概率 (参见 第 2 章 的 习题 30) 


l r 245 
P(e) = -元 fe du (71) 
r/2 
其 中 xr? SEF Mahalanobis 距离 (具体 请 参见 第 2 章 ,2.5 市 ) 
r? = (py — W) E~! (AI — m2) (72) 


ORE, 4 r 增加 时 ,误差 概率 就 相应 减 小 ,并 且 在 当 r 趋 近 于 无 穷 大 时 ,误差 概率 接近 于 和 零 。 对 
于 条 件 独 立时 的 情况 , 有 L=diaglo; or" ,04) 和 


< Hil — Hi2 ? 
2 i i 
r=% (More ) (73) 


上 式 显 示 出 每 一 个 特征 对 降低 误差 概率 所 做 出 的 贡献 。 自 然 的 ,最 有 用 的 特征 是 两 类 均值 之 
间 的 距离 大 于 标准 差 的 那些 特征 。 而 如 果 一 个 特征 的 两 类 均值 不 相同 ,那么 这 个 特征 就 是 有 
用 的 。 一 个 容易 想到 的 降低 误差 概率 的 方法 就 是 再 引进 新 的 ,独立 的 特征 。 每 一 个 新 引进 的 
特征 可 能 只 导致 > 的 少量 增加 ,但 只 要 > 的 值 能 够 无 限制 的 增加 下 去 ,误差 概率 就 有 可 能 任意 
的 小 。 

通常 ,如 果 基 于 现 有 的 所 有 特征 所 设计 出 的 分 类 器 的 效果 不 令 人 满意 ,那么 考虑 增加 新 的 
特征 就 是 一 个 很 自然 的 解决 方法 ,特别 是 那些 有 助 于 分 开 常 常 被 混 滑 的 类 别 的 新 特征 。 虽 然 
增加 新 的 特征 导致 的 负面 影响 是 增加 了 特征 提取 与 分 类 器 的 计算 复杂 度 , 但 通常 分 类 器 的 性 
能 能 够 得 到 一 定 程度 的 改善 。 而 且 , 如 果 问 题 的 概率 结构 是 完全 已 知 的 ,那么 增加 新 的 特征 并 
不 会 增加 贝 叶 斯 风险 。 最 坏 的 情况 也 就 是 最 终 的 贝 叶 斯 分 类 器 忽略 那些 新 增加 的 特征 ,而 只 
要 新 特征 确实 提供 了 有 用 的 信息 ,那么 分 类 器 的 精确 度 显然 会 提高 。 

但 是 ,在 实际 应 用 中 ,人 们 通常 发 现 当 特征 个 数 增加 到 某 一 个 临界 点 后 ,继续 增加 反而 会 
导致 分 类 器 的 性 能 变 差 。 这 个 现象 似乎 与 理论 相 了 矛盾, 因此 对 分 类 器 设计 提出 了 真正 的 严峻 
的 挑战 。 而 问题 的 核心 通常 可 以 追溯 到 最 初 假设 的 概率 模型 与 实际 情况 之 间 的 不 匹配 (比如 ， 
高 斯 假设 或 条 件 假设 是 不 正确 的 ) (请 参见 图 3-3)。 或 者 因为 实际 所 用 的 训练 样本 个 数 非 常 
有 限 ,导致 了 概率 分 布 的 估计 的 不 准确 ,等 等 。 然 而 ,详细 分 析 这 些 问 题 是 很 困难 的 ,同时 也 比 
较 微 妙 。 简 化 的 情况 通常 不 具有 实际 中 出 现 的 这 些 现象 ,而 真正 的 实际 应 用 的 问题 又 是 难于 
具体 分 析 的 (关于 这 方面 的 进一步 讨论 ,可 以 参见 第 9 BE). 
3.7.2 计算 复杂 度 

前 文中 已 经 多 处 提 到 影响 分 类 器 设计 方法 的 因素 之 一 是 计算 复杂 度 。 在 这 里 ,我 们 将 更 
深入 的 讨论 这 个 问题 。 我 们 要 熟悉 一 些 术语 和 它们 的 具体 含义 。 首 先 , 是 函数 的 “ 阶 ”(order) 
的 概念 。 我 们 说 , f(x)“ 具有 h(z) 的 阶 ” 一 一 记 作 fa) SOR), A A EE hK O 
阶 ”, 它 表示 存在 常数 c 和 ze 使 得 对 所 有 的 z>zo ,存在 |.F(Cz)1 委 cl|AGz)|。 那 么 这 说 明 , 对 
于 足够 大 的 zx, 函数 f(x) 的 上 界 不 会 超出 h(x) 所 限定 的 范围 。 例 如 ,假设 fC) =a taart 
az 。 对 这 个 FCz) RITA f(a) = O02’) AAMT EBA x, f(z) 的 常数 部 分 ,线性 部 分 
和 二 次 项 部 分 都 可 以 通过 对 函数 ze” 选择 足够 大 的 c Az, 来 超过 。 对 于 多 个 变量 的 情况 , 椎 
广 也 是 类 似 的 。 必 须 指 出 ,在 这 样 的 定义 下 ,一 个 函数 的 大 O 阶 函数 并 不 是 惟一 的 .例如 ,对 
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图 3-3 图 中 显示 了 两 个 三 维 分 布 . 具 有 
互 不 重合 的 概率 密度 孙 数 。 因 此 .在 三 维 
空间 中 , 贝 叶 斯 误差 概率 为 零 。 当 把 它们 à 
投影 到 一 个 子 空间 中 时 ”这 里 的 子 空 间 
可 以 是 二 维 空 间 zi 一 zs 或 一 维 空间 x , 投 
影 后 的 两 个 分 布 则 有 可 能 产生 较 严 重 的 重 
登 现 象 ,导致 了 较 大 的 贝 叶 斯 误差 率 





于 上 文 的 fix) EKORA AKO) Or) Ot Oa lnr). SS. 

正 因 为 大 OO 阶 函 数 不 是 惟一 的 ,我 们 常常 需要 一 个 最 可 能 准确 的 阶 函 数 。 我 们 把 f(x)= 
Oho) PRAY SABARAT AR AOAR OM”. EE HS rescz ,对 于 所 有 的 zzo， 
fz) 总 是 位 于 chlrx) 和 coh(zx) 之 间 。 这 样 ,前 面 的 二 次 型 函数 满足 f(x)= 二 B(x*), 但 不 满足 
f(x) 一 B(z)( 一 个 更 加 详细 的 解释 请 参见 附录 A. 8 市 )。 

在 描述 一 个 算法 的 计算 复杂 度 时 ,我 们 总 是 对 实现 这 个 算法 所 需要 的 基本 数学 操作 (比如 
加 法 ,乘法 ,除法 ) 的 次 数 感 兴趣 ,或 者 就 是 关注 在 计算 机 上 运行 该 算法 所 需要 的 时 间 和 存储 器 
消耗 。 为 了 解释 这 一 点 ,我们 考虑 对 nn 个 c 类 4 维 训 练 样 本 的 高 斯 分 布 用 最 大 似 然 方法 进行 
参数 估计 。 对 每 一 个 类 ,都 需要 计算 如 公式 (74) 所 示 的 分 类 函数 。 计 算 样本 均值 上 & 的 计算 复 
EH O(nd) AA d 维 中 的 每 一 维 , 都 需要 对 个 训练 样本 的 对 应 分 量 进 行 相 加 。 而 因为 
相 加 之 后 的 除 以 这 一 操作 只 需要 进行 一 次 ,所 以 不 影响 计算 复杂 度 。 对 样本 协 方差 矩阵 
中 的 d(d 十 1)/2 个 独立 元 素 , 每 一 个 都 需要 进行 n 次 乘法 和 nn 次 加 法 (请 参见 公式 (19)), 其 
计算 复杂 度 为 OC(d*n)。 一 旦 样本 协 方 差 矩 阵 叉 已 经 计算 得 到 ,为 求 其 行列 式 值 所 需要 的 操作 
的 计算 复杂 度 为 O(d?)。 使 用 最 常用 的 高 斯 消 元 法 , 逆 和 矩阵 的 计算 则 需要 OM ) 次 的 操作 ” 。 
估计 P(w) 的 计算 复杂 度 为 O(n)。 公 式 (74) 解 释 了 用 最 大 似 然 估 计 方 法 求 正 态 分 布 的 参数 
时 ,和 名 个 部 分 的 计算 复杂 度 为 

O(1) O(d?n) 


5 
O(dn) O(nd*) | O(n) 


i. i, d | a 一 ~ 一 

g(x) = — 5 (x By Z ix — Aj — 5 In2x ~ 5 In || +In P(w) 

通常 假设 x 这 >d (否则 协 方 差 矩 阵 就 没有 合适 的 逆 和 矩阵 了 ) 。 在 这 样 的 情况 下 ,在 大 数据 量 

的 问题 中 ,计算 单独 的 一 个 分 类 函数 的 整体 的 计算 复杂 度 主要 受 公 式 (74) 中 的 O(din) 这 一 项 
的 支配 。 由 于 公式 (74) 对 每 一 类 别 都 进行 相同 的 计算 ,因此 ,在 设计 贝 叶 斯 分 类 秀 的 学 习 过 程 
中 的 整体 的 计算 复杂 度 为 O(cd*n)。 由 于 c 通 常 是 比 d* 或 n 都 要 小 得 多 ,因此 ,整体 的 计算 


O 在 这 里 ,我 们 必须 指出 ,存在 着 更 为 复杂 的 计算 逆 矩 阵 的 算法 ,其 计算 复杂 度 为 Cd ) ,而且 ,人 们 在 将 来 也 可 
能 找到 计算 复杂 度 更 低 的 求 道 矩阵 的 算法 。 
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复杂 度 就 表示 为 O(dzz) 。 从 3. 7 节 我 们 知道 ,为 了 提高 准确 性 ,通常 要 求 有 尽 可 能 多 的 训练 


样本 ,而 在 这 里 ,我 们 又 看 到 这 样 做 将 导致 计算 复杂 度 的 迅速 增加 。 

以 下 我 们 再 用 一 些 篇 幅 对 协 方差 矩阵 估计 的 计算 复杂 度 进行 讨论 。 这 涉及 估计 
d(d 十 1)/2 个 参数 一 一 其 中 的 4 个 为 对 角 线 上 的 元 素 ,d(d 一 1)/2 个 为 非 对 角 线 上 的 独立 元 
素 。 首 先 , 注 意 到 使 用 最 大 似 然 估计 ,有 


pa 1 n 
2 = -9 Ok — my) (Ok — mn)! (75) 
k=l 


其 中 涉及 的 计算 为 Ond’), CE n—1 Ai RA 1H dX d PRCA EE, F 
n<dif HVERRAR. HFUMTATH DH, ARAE ,我 们 要 求 样 本 个 数 必须 不 小 于 
d 十 1。 为 了 得 到 更 好 的 估计 ,通常 使 用 的 样本 的 个 数 要 比 这 个 最 低 限 度 的 规定 要 多 的 多 。 

分 类 过 程 中 的 计算 复杂 度 问 题 则 要 小 得 多 。 已 知 一 个 测试 点 X, 我 们 需要 计算 差 癌 量 
(x 一 4) ,这 是 一 个 复杂 性 为 O(Cd) 的 计算 。 对 每 一 个 类 ,必须 把 协 方差 矩阵 的 逆 和 矩阵 与 差 向 量 
HR, HAREN O). Hk maxig;(x) 的 复杂 性 为 OCc) 。 对 于 较 小 的 c< 值 ,整个 分 类 问题 
的 复杂 性 为 O( 必 ) 。 这 里 ,与 其 他 几乎 任何 模式 分 类 问题 一 样 ,分 类 阶段 要 比 学 习 阶 段 简单 和 
快速 得 多 。 对 于 贝 叶 斯 学 习 方 法 ,如 同 公 式 (48) ,其 计算 复杂 度 与 最 大 似 然 估 计 方 法 相同 。 然 
而 ,通常 , 贝 叶 斯 学 习 要 比 最 大 似 然 方 法 更 复杂 ,因为 其 中 涉及 对 所 有 可 能 的 6 进行 积分 的 问 
题 。 

以 上 的 粗略 的 分 析 没 有 告诉 我 们 计算 复杂 度 中 的 比例 系数 问题 。 对 规模 有 限 的 问题 , 某 
个 特定 的 O(ni) 算 法 也 有 可 能 (虽然 很 不 典型 ) 比 某 个 特定 的 OC ) 算 法 简单 。 因 此 ,有 时 候 
还 需要 决定 这 些 比 例 系 数 , 以 确定 到 底 那 种 算法 最 简单 。 不 过 ,总 的 来 说 。 大 O 和 大 日 记号 
通常 是 用 来 描述 计算 复杂 度 的 最 有 效 的 办 法 。 

有 了 时候, 我 们 还 需要 强调 空间 -时 间 复 杂 度 ,这 一 点 在 并 行 处 理 的 应 用 场合 中 尤其 重要 ， 
例如 ,一 个 类 别 的 样本 均值 可 以 用 4 个 不 同 的 处 理 器 来 计算 ,每 一 个 处 理 器 负责 对 个 样本 的 
中 的 特定 分 量 进行 相 加 。 这 样 ,我 们 可 以 把 这 类 方法 的 复杂 度 表示 为 :空间 复杂 度 为 Od) 
需要 的 存储 器 的 数量 或 处 理 器 的 数量 ) ,而 时 间 复 杂 度 为 O(n)( 即 需要 串 行 处 理 的 步骤 个 数 )。 
当然 ,对 于 任何 的 算法 ,时 间 复 杂 度 和 空间 复杂 度 之 间 可 能 会 进行 一 些 折 中 ,例如 ,算法 可 以 用 
一 个 处 理 器 进行 多 次 处 理 来 完成 ,也 可 以 用 多 个 并 行 处 理 器 用 较 短 的 时 间 完 成 。 这 些 “ 折 中 ” 
有 时 需要 非常 仔细 的 考虑 和 分 析 ,特别 是 在 第 6 章 讲述 的 神经 网 络 算法 的 具体 实现 中 。 

两 个 常用 的 定性 区 分 计算 复杂 度 的 术语 是 “多 项 式 复 杂 度 "和 "指数 复杂 度 " 一 一 0(a: ) 。 
具有 指数 复杂 度 的 算法 通常 过 分 复杂 ,以 至 于 我 们 总 是 力求 避免 ,并 转 而 寻求 具有 多 项 式 复 杂 
度 的 替代 算法 。 

3.7.3 过 拟 合 

在 实际 问题 中 ,我们 经 常 遇 到 训练 样本 不 足 的 情况 。 在 这 样 的 情况 下 ,该 如 何 处 理 呢 ? 一 
种 解决 办 法 是 降低 问题 的 维 数 , 也 就 是 说 重新 设计 特征 提取 模块 ,只 选取 现 有 特征 的 一 个 子 
集 ,或 者 通过 某 种 方法 ,把 见 个 特征 组 合 在 一 起 (参见 第 10 章 )。 第 二 个 解决 办 法 是 假设 各 个 
类 的 协 方差 矩阵 相同 ,这 样 就 能 把 全 部 的 数据 都 归 到 一 起 。 另 一 种 解决 办 法 是 寻找 协 方差 矩 
阵 互 的 更 好 的 估计 。 如 果 已 经 有 了 某 一 个 合理 的 先 验 估 计 D ,我 们 就 可 以 用 有 如 下 形式 的 贝 
叶 斯 估计 (或 可 被 称 为 “ 伪 贝 叶 斯 估计 >) :AZ 十 (1 一 人) 至。 如 果 先 验 估计 SD 是 一 个 对 角 和 矩阵 ， 
那么 这 就 消除 了 那些 恼人 的 互相 关 。 或 者 ,人 们 可 以 用 设置 国 值 的 方法 来 启发 式 的 消除 互相 
关 。 例 如 ,我 们 可 以 合理 的 假设 任何 不 接近 1 的 协 方差 实际 为 0。 这 一 方法 的 一 个 极端 情况 
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是 假设 各 个 特征 之 间 统 计 独 立 , 这 样 把 全 部 的 非 对 角 元 素 都 置 为 0, 而 不 管 实际 情况 如 何 。 虽 
然 这 种 极端 的 假设 显然 是 不 正确 的 ,但 是 ,有 时 这 样 得 到 的 结果 反而 比 正规 的 最 大 似 然 估计 得 
到 的 结果 要 好 。 

这 里 ,我 们 又 遇 到 了 一 件 似乎 矛盾 的 事 。 硬 性 假设 各 特征 之 间 统 计 独 立 而 得 到 的 分 类 器 
几乎 肯定 是 次 优 的 。 而 如 果 这 些 特征 真 的 是 独立 的 , 那 这 个 分 类 器 就 是 最 优 的 。 那 么 ,在 独立 
这 一 假设 并 不 成 立 的 情况 下 ,我们 将 如 何 提高 分 类 器 的 性 能 呢 ? 这 一 问题 再 次 涉及 到 训练 数 
据 不 充分 的 问题 。 与 之 相近 的 一 个 类 比 能 够 使 我 们 从 直观 上 对 问题 的 本 质 得 到 一 些 洞察 。 考 
虑 图 3-4 所 示 的 曲线 拟 合 问题 。 图 中 给 出 了 10 个 样本 点 ,和 两 条 可 能 的 拟 合 曲线 。 这 些 样本 
点 是 在 抛物 线 方程 中 加 入 独立 的 零 均 值 的 随机 噪声 而 得 到 的 。 因 此 ,在 所 有 可 能 的 多 项 式 曲 
线 中 ,应 该 是 抛物 线 本 喘 能 够 提供 最 好 的 拟 合 结果 。 但 是 否 这 些 训练 样本 点 本 身 就 足够 确定 
拟 合 曲线 了 呢 ? 我 们 看 到 ,就 这 10 个 样本 点 来 说 ,除了 抛物 线 本 身 ,一 条 10 阶 的 多 项 式 曲 线 
对 这 些 点 处 的 拟 合 非常 好 。 但 显然 ,这 条 10 阶 的 多 项 式 曲 线 与 我 们 所 要 求 的 抛物 线 相 去 太 远 
了 了。 通常 ,可靠 的 内 插 或 外 插 只 有 当 解 是 超 定 的 时 候 才 能 够 得 到 , 即 要 求 有 比 求解 函数 参数 所 
需要 的 更 多 的 样本 点 。 

图 3-4 图 中 所 示 的 训练 数据 是 从 一 个 二 

次 项 数 中 选取 的 ,上 面 琶 加 上 了 高 斯 随机 噪 

A ,也 就 是 说 , Sa) =ar tbr + c 十 € ,其 

中 pl(€)~N(0,0)。 图 中 所 时 图 中 。 图 中 

所 示 的 10 阶 多 项 式 函 数 能 够 很 好 的 拟 合 这 

些 样本 点 ,然而 ,我 们 实际 上 所 想 要 的 却 是 

如 虚线 所 示 的 二 次 函数 ,因为 它 能 够 更 好 的 

拟 合 未 来 的 新 的 样本 点 





在 拟 合 图 3-4 中 的 样本 点 的 过 程 中 ,可 以 考虑 在 一 开始 先 用 高 阶 的 多 项 式 曲 线 来 拟 合 ( 例 
如 ,10 阶 多 项 式 曲 线 ), 然 后 ,通过 依次 去 掉 那 些 高 阶 项 来 逐渐 的 简化 模型 ,获得 更 光滑 的 结 
果 。 虽 然 无 论 在 什么 情况 下 这 样 做 都 有 可 能 对 训练 样本 本 身 产生 较 大 的 误差 ,但 在 总 体 上 , 拟 
合 的 效果 却 得 到 了 改进 。 

相似 地 ,高 斯 分 类 器 的 设计 中 也 存在 着 一 些 启发 式 的 方法 。 例 如 ,我们 希望 设计 一 个 分 类 
全 ,两 个 类 别 的 分 布 分 别 为 NG ,2 ) ,和 NGC ,2 )。 同 时 ,假设 已 经 知道 目前 的 训练 样本 的 
个 数 是 不 足 的 。 这 样 , 先 简 单 的 假设 这 两 类 分 布 的 协 方差 是 相同 的 , 也 就 是 Np , 互 )， 
Nm ,ZE)。 这 样 我 们 仅仅 需要 估计 五 ,而 不 是 两 个 不 同 的 协 方差 :2 和 5, 。 这 样 的 估计 和 需要 
对 数据 进行 止 确 的 归 一 化 (请 参见 习题 37) 。 

然后 ,执行 一 种 中 间 操 作 。 这 一 中 间 操 作 事 实 上 是 对 相同 的 协 方差 和 各 自 的 不 同 的 协 方 
差 之 间 进 行 一 个 加 权 平 均 , 这 有 时 被 称 为 缩 并 (shrinkage) 技术 (或 者 称 为 “正则 的 判别 分 
析 ”) ,因为 不 同 的 协 方差 缩 并 为 同一 个 协 方差 。 设 ;为 c 个 类 中 的 任何 一 个 的 下 标 , 我 们 有 

(1 —a@)n;2; 十 and 


Zi(a) = -一 一 一 一 一 一 一 (76) 
(1 —a@)n; + æn 
其 中 0<8<1, Pb RNB a WS A eS ey A HEH 
X(B) = (1 — pb) + BI (77) 


其 中 0 和 6<1( 上 机 练习 8)。 注 意 , 这 种 简化 分 类 器 的 设计 方法 在 回归 法 中 也 得 到 了 相 类 似 的 
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应 用 ,被 称 为 岭 回 归 (ridge regression), 
本 章 中 对 这 个 问题 的 讨论 就 暂 告 一 段落 。 在 第 9 章 中 ,我 们 将 进一步 深入 讨论 为 达到 最 
优 性 能 ,如 何 控制 一 个 分 类 器 的 复杂 程度 或 表达 能 力 这 个 关键 的 问题 。 


“3.8 成 分 分 析 和 判别 郴 数 


一 种 处 理 过 多 的 维 数 的 方法 是 采用 组 合 特征 的 方法 来 降 维 。 对 几 个 特征 作 线 性 组 合 是 一 
种 特别 具有 吸引 力 的 方法 ,因为 线性 组 合 容易 计算 ,并 且 能 够 进行 解析 分 析 。 从 本 质 上 来 说 ， 
线性 方法 是 把 高 维 的 数据 投影 到 低 维 空间 中 。 有 两 种 经 典 的 寻找 有 效 的 线性 变换 的 方法 。 其 
一 是 主 成 分 分 析 (principal component analysis,PCA) ,这 一 方法 的 目的 是 寻找 在 最 小 均 方 意 
义 下 最 能 够 代表 原始 数据 的 投影 方法 。 男 一 种 方法 为 多 重 判 别 分 析 (multiple discriminant 
analysis, MDA) ,这 一 方法 的 目的 是 寻找 在 最 小 均 方 意义 下 ,最 能 够 分 开 各 类 数据 的 投影 方 
法 。 这 一 节 将 对 这 两 种 方法 分 别 进行 讨论 。 

3.8.1 主 成 分 分 析 

考虑 这 样 的 问题 ,有 nn 个 4 维 的 样本 x, ,xs,… ,x; ,如 何 能 够 用 仅仅 一 个 a 维 的 向 量 x 来 
最 好 的 代表 这 n 个 样本 ,或 者 更 确切 的 说 ,我 们 希望 这 个 代表 向 量 x 与 各 个 样本 xg, 
k=l e ,nn 的 距离 的 平方 之 和 越 小 越 好 。 定 义 平方 误差 准则 联 数 J Cx AP: 

Jo(Xo) = 》 Ixo 一 kj (78) 
k=l 

我 们 要 寻找 能 够 使 得 J,(xo) 最 小 化 的 那个 4 维 的 向 量 x 。 容 易 想到 ,这 个 问题 的 解答 就 
是 x =m, HF m EFSI, 


l n 
m = -J x (79) 
k=] 
这 个 结论 的 正确 性 可 以 证 明 如 下 : 


Jo(Xo) = 2, {I — m) — (xx — ml 


= -> lxo — m||? — 29 (00 - m)' (x, 一 m) + 3 lIxx — maj]? 


k= k=] 


— yi -ml — 2(x0 — m) Son - m) + yi — m||? 
k=l k=] k=l 


= $ ixo — mj? + È` lix -mi (80) 
k=l k=l 
不 依赖 xo 


因为 上 式 最 右边 的 第 二 项 不 依赖 于 x ,因此 这 个 表达 式 在 x =m 时 取 到 极 小 值 。 
样本 均值 是 样本 数据 集 的 零 维 表达 。 它 非常 简单 ,但 缺点 是 并 不 能 反映 出 样本 之 间 的 不 
同 。 通 过 把 全 部 样本 向 通 过 样本 均值 的 一 条 直线 作 投影 ,我 们 能 够 得 到 代表 全 部 样本 的 一 个 
一 维 向 量 。 让 。 表示 这 条 通过 样本 均值 的 直线 上 的 单位 向 量 ,那么 ,这 条 直线 的 方程 可 以 表示 
为 
x=m+ae (81) 
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其 中 的 a 为 一 个 实数 的 标量 ,表示 直线 上 的 某 个 点 离开 点 m 的 距离 。 如 果 我 们 用 ma, e 来 代表 
x ,那么 通过 最 小 化 平方 误差 准则 函数 ,我 们 能 够 得 到 一 组 最 优 的 a 的 集合 ,其 过 程 如 下 : 


n 


J (a1, -+ -, an, €) = $ |m + ae) — x|]? = > Have — (x, — m)||? 


k=l 


= Y allel? — 25 ave! (xe — m) + Y` 一 ml (82) 115 
k=1 k=l k=l 
HF | ell =1 ,通过 对 a, KS ,并 且 令 结果 为 0 ,我 们 得 到 
ak = € (Ke — m) (83) 


从 几何 上 说 ， 这 个 销 困 告诉 我 们 只 需要 把 向 量 x, BURA AH BR e 作 垂直 投影 就 能 够 
得 到 最 小 方差 结果 。 

这 就 引起 一 个 更 有 意义 的 问题 , 即 ， 如 何 找到 直线 e 的 最 优 方向 ， 问题 的 求解 过 程 引 人 了 
所 谓 的 “散布 矩阵 ”(scatter matrix) BY“ By AE oe” 


S = 2% — m)(X 一 m)‘ (84) 


它 看 上 去 很 熟悉 ,事实 上 它 RRA BIE n 一 1 倍 。 把 根据 公式 (83) 得 到 的 a, FRA 
式 (82) 中 ,我 们 得 到 


n n n 
Jie) = do ap -29 a} +Y lix — m]? 
k=} k=l k=] 
n n 
= — $ Te’ (xe — m)? + È` lx ~ mll? 
=— ġe (xx — mx — m)'e + > lix — ml}? 
k=! k=l 


= —e'Se + Ý |x: — mil (85) 
k=] 


在 式 (85) 中 ,显然 使 J, 最 小 的 那个 向 量 e, 能 够 使 eSe 最 大 。 我 们 使 用 拉 格 朗 日 乘 子 法 (具体 
请 参见 附录 中 的 节 A. 3) 来 最 大 化 eSe, 约束 条 件 为 等 式 lle ll =1。 用 4 表示 拉 格 朗 日 乘 子 ， 
有 


u = e'Se — 4 (e'e—1) | (86) 
Xt ek a= ,得 到 
cM =2Se —2re (87) 
de 
令 这 个 梯度 向 量 为 零 ,我 们 看 到 ,e 必须 为 散布 矩阵 的 本 征 向 量 : 
Se = ire (88) 
特别 ,因为 ese 王 Me'e 王 4, 所 以 我 们 能 很 自然 地 得 出 结论 ,为 了 最 大 化 eSe, 我 们 选取 散布 矩阵 
最 大 的 本 征 值 对 应 的 那个 本 征 向 量 作为 投影 直线 e 的 方向 。 116 


这 一 结论 可 以 立刻 从 一 维 空间 的 映射 推广 到 ad' 维 空间 的 映射 。 我 们 将 公式 (81) 重 写 为 
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d 
K=m+) ae; (89) 
i=} 


2 


n 


其 中 d’<d. TEHER ,新 的 平方 误差 准则 函数 
jy = 


d’ 
(m+ ws) 一 Xx 
k=] i=] 


在 向 量 e ,es ，,… ,ez 分 别 为 散布 矩阵 的 a 个 最 大 本 征 值 所 对 应 的 本 征 向 量 的 时 候 , 取 得 最 小 
值 。 因 为 散布 矩阵 是 实 对 称 和 矩阵 ,因此 这 些 本 征 向 量 都 是 互相 正 交 的 。 这 些 本 征 向 量 构成 了 
代表 任 一 向 量 x 的 基 向 量 。 公 式 (89) 中 的 系数 a 就 是 问 量 x 对 应 于 基 。 的 系数 ,被 称 作 主 成 
分 (principal component)。 从 几何 上 说 ,样本 点 ox, Ed 维 空间 形成 了 一 个 4 维 椭 球 形 
状 的 云 团 。 那 么 ,散布 矩阵 的 本 征 向 量 就 是 这 个 云 团 的 主轴 。 主 成 分 分 析 通 过 提取 云 团 散布 
最 大 的 那些 方向 的 方法 ,达到 了 对 特征 空间 进行 降 维 的 目的 。 


3.8.2 Fisher 线性 判别 分 析 


虽然 PCA 方法 对 于 代表 数据 样本 非常 有 效 ,但 是 并 没有 理由 表明 主 成 分 对 区 分 不 同 的 类 
别 有 什 么 大 作用 。 如 果 我 们 把 所 有 类 别 的 样本 都 放 在 一 起 , 则 被 PCA 方法 抛弃 的 那些 分 布 方 
向 有 可 能 正 是 能 够 把 不 同 的 类 别 区 分 开 来 的 分 布 方向 。 例 如 ,在 印刷 体 字符 识别 中 ,如 果 需 要 
识别 的 是 大 写字 母 “O” 和 “Q”, 用 PCA 方法 能 够 发 现 这 两 种 字母 之 间 的 相似 之 处 , 却 很 可 能 把 
区 分 字母 “0” 和 “Q” 的 那个 “尾巴 ”特征 抛弃 掉 。 也 就 是 说 ,PCA 方法 寻找 的 是 用 来 有 效 表示 
的 主轴 方向 ,而 判别 分 析 方 法 (discriminant analysis) 寻 找 的 是 用 来 有 效 分 类 的 方 同 。 

我 们 考虑 把 d 维 空间 中 的 数据 点 投影 到 一 条 直线 上 去 。 当 然 , 即 使 不 同类 的 样本 点 在 d 
维 空间 中 能 够 形成 互相 分 离 的 ,各 自 内 部 紧 竣 的 集合 ,向 任意 的 直线 作 投 影 也 有 可 能 把 这 些 不 
同类 的 数据 点 混在 一 起 ,反而 降低 了 分 类 的 效果 。 然 而 ,通过 适当 的 选择 投影 直线 ,我 们 还 是 
有 可 能 找到 能 够 最 大 限度 的 区 分 各 类 数据 点 的 投影 方向。 这 就 是 经 典 的 可 分 性 分 析 的 目标 。 

假设 我 们 有 一 组 2 个 d 维 的 样本 x1，… ,x, ,它们 分 属于 两 个 不 同 的 类 别 , 即 其 中 的 大 小 为 
n 的 样本 子 集 D1 属于 类 别 wi ,大 小 为 和 2 的 样本 子 集 D; 属于 类 别 o. WRI x 中 的 各 个 成 
分 作 线 性 组 合 ,就 得 到 点 积 , 结 果 是 一 个 标量 


(90) 











y= wx (91) 

这 样 ,全 部 的 ?个 样本 x ex, 就 产生 了 个 结果 yee. y, AIO RFRAY, MY... MILT 
上 说 ,如 果 上 wj =1, 那 么 每 一 个 y: 就 是 把 x 向 方向 为 w 的 直线 进行 投影 的 结果 。 事 实 上 ,w 的 
幅 值 并 不 重要 ,因为 其 效果 不 过 是 把 y 乘 上 了 一 个 标量 倍数 。 而 w 的 方向 却 非常 重要 。 如 果 属 
于 类 别 w 的 样本 和 属于 类 别 w 的 样本 在 a 维 空间 中 分 别 形成 两 个 显著 分 开 的 聚 类 ,那么 我 们 希 
望 它们 在 向 直线 作 投 影 之 后 应 尽量 的 分 开 , 而 不 是 混在 一 起 。 图 3-5 给 出 了 一 个 例子 。 其 中 ,二 
维 空间 中 的 样本 集 分 别 向 两 个 不 同方 向 的 直线 作 投 影 ,产生 的 结果 在 可 分 程度 上 是 非常 不 同 的 。 
当然 ,我 们 也 应 该 注意 如 果 各 个 类 别 的 样本 在 原始 的 a 维 空间 中 就 是 不 可 分 的 , 那 无 论 向 什么 方 
向 的 投影 都 无 法 产生 可 分 的 结果 ,因此 这 个 方法 也 就 不 适用 了 。 

现在 我 们 来 讨论 如 何 确定 最 佳 的 直线 方向 w, 以 达到 最 好 的 分 类 效果 。 一 个 用 来 衡量 投 
影 结 果 的 分 离 程度 的 度量 是 样本 均值 的 差 。 如 果 m, Ad 维 样本 均值 为 
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把 同一 组 样本 点 向 两 个 不 同 的 方向 作 投影 。 右 边 的 图 中 的 投影 方向 使 得 投影 后 的 点 比 左 


图 3-5 
边 更 容易 分 开 ( 红 色 的 点 与 黑色 的 点 ) 
m ] 
i= 7 2% 92 
ni xeD; ‘ 
那么 ,投影 后 的 点 的 样本 均值 为 
_ 1 
yey; 
= 一 So wx = wm (93) 
i xED; 
(94) 


也 就 恰好 是 原样 本 均值 m, 的 投影 。 
投影 后 的 点 的 样本 均值 之 差 为 
lm; — m| = |w (mi — m))| 


我 们 可 以 通过 增加 w 的 幅 值 的 方法 来 得 到 任意 大 小 的 投影 样本 均值 之 差 。 但 投影 样本 均值 
之 差 的 大 小 总 是 相对 而 言 的 ,否则 问题 就 失去 了 意义 。 我 们 定义 类 别 o: 的 类 内 散布 如 下 : 
(95) 


=Y (一 页) 
yey; 


WR, (1/n)(s? 十 引 ) 就 是 全 部 数据 的 总 体 的 方差 的 估计 。s? 十 si 称 作 投影 样本 的 总 类 内 散布 。 
Fisher 线性 可 分 性 准则 要 求 在 投影 y=wx 下 ,要 求 准则 函数 
: (96) 


Imi 一 M|? 
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Tw) = 24 3 
最 大 化 。 为 使 得 J(.) 最 大 化 的 mw 能够 使 投影 后 的 两 类 最 大 程度 的 分 开 时 ,我 们 还 需要 一 个 闭 
(MEW ,来 获得 最 终 的 分 类 器 。 首 先 我 们 讨论 如 何 求解 最 优 的 w, 然 后 将 讨论 阅 值 问题 。 
为 了 把 J() 写 成 w 的 表达 式 , 定 义 类 内 散布 和 矩阵 $ 和 总 类 内 散布 矩阵 Sw 如 下 : 
(97) 


S: = $ (x — m;)(x — m;)' 
xeD; . 
Sw = Sı +S (98) 


然后 ,我们 有 
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5 = X (wx — w'm,)? 


xeD, 
= wx — m;)(x — mi)'w 
xED, 
= W'S,w (99) 
因此 ,各 离散 度 之 和 可 以 写成 
5? +55 =wSww (100) 
类 似 地 ,投影 样本 均值 之 差 可 以 展开 为 
(mm, — ñ)? = (w'm, — wmz)? 
一 W (ml — m))(m, 一 m2) w 
= w'Spw (101) 
其 中 
Ss = (mi — m2)(mi 一 m2) (102) 
我 们 把 Sw 称 为 总 类 内 散布 矩阵 。 它 与 全 部 样本 的 样本 协 方差 矩阵 成 正比 。 并 且 是 对 称 
和 半 正 定 的 。 当 n>>a 时 ,Sw 通常 非 奇 异 。 相 类 似 的 ,Sa 被 称 为 总 类 间 散 布 矩阵 ,也 是 对 称 半 
正定 的 。 但 由 于 Ss 实际 上 是 两 个 向 量 的 外 积 ,因此 其 秩 至 多 为 1。 特 别 的 ,对 于 任意 的 w, 
Saw 的 方向 是 在 m —m, 上 ,Ss 是 很 奇异 的 。 
若 使 用 Ss Sw 来 表达 EW BR IOUS mM 


J(w) = (103) 


这 个 表达 式 在 数学 物理 中 是 经 常 使 用 的 ,通常 被 称 为 广义 的 瑞 利 商 。 容 易 证 明 ,使 得 准则 函数 
FO) BK AGH w 必须 满足 





Saw = ASww (104) 
这 是 一 个 广义 本 征 值 问题 ( 习 题 42) 。 也 可 以 这 样 不 严格 的 来 理解 ,在 JCw) 的 极 值 处 ,w 发 生 
微小 变动 ,并 不 使 得 式 (103) 中 的 分 子 分 母 比 例 产生 变化 。 如 果 Sw 是 非 奇 异 的 ,我 们 就 能 得 
到 通常 的 本 征 值 问题 


SySBpw = Aw (105) 
在 我 们 的 问题 中 ,并 没有 必要 真正 地 计算 出 矩阵 Sw Ss 的 本 征 值 和 本 征 向 量 ,因为 Saw 总 是 位 
于 mi 一 mz 的 方向 上 。 由 于 w 的 模 对 问题 本 身 无 关 紧 要 ,因此 能 够 立刻 写 出 使 得 准则 函数 
JORKE W: 
w = Sw (m; ~ m2) (106) 
这 样 ,我 们 就 得 到 了 Fisher 可 分 性 判 据 下 的 w, 这 个 w 就 是 使 得 类 间 散 布 和 类 内 散布 的 
比值 达到 最 大 的 线性 函数 。 式 (106) 得 到 的 w 的 解 有 时 也 被 称 作 典范 变量 “(canonical vari- 
ate) 。 这 样 ,问题 就 从 一 个 d 维 问题 转化 为 了 一 个 更 容易 分 析 和 处 理 的 一 维 问题 。 当 然 , 这 个 
映射 是 多 对 一 的 ,从 理论 上 ,在 有 很 多 训练 样本 的 情况 下 ,并 不 能 使 最 小 误差 概率 减 小 。 然 而 ， 
我 们 总 是 愿意 为 了 得 到 在 一 维 中 操作 的 方便 性 ,而 相应 的 牺牲 掉 一 些 理论 上 的 分 类 效果。 因 
此 , 剩 下 的 问题 就 是 如 何 求解 阔 值 ,也 就 是 在 这 个 一 维 空间 中 把 两 类 分 开 的 那个 点 的 位 置 。 
当 条 件 概率 密度 函数 如 (xlwi) 是 多 元 正 态 函 数 ,并 且 各 个 类 别 的 协 方差 矩阵 互相 同时 ,我 
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们 能 够 直接 计算 这 个 阐 值 。 在 这 种 情况 下 ,回忆 第 2 章 , 最 佳 判 决 边界 的 方程 为 
wx+ wp =0 (107) 
其 中 
w=} | (Hi — m) (108) 


并 且 w 是 一 个 与 w 和 先 验 概 率 有 关 的 常数 。 如 果 我 们 用 样本 均值 和 样本 协 方差 来 估计 e: 和 
三 ,那么 将 得 到 与 式 (108) 中 的 使 1:) 最 大 化 的 w 同方 向 的 一 个 向 量 。 这 样 ,对 于 正 态 .等 协 方 ”|120 
差 的 情况 ,最 优 判决 准则 就 是 当 Fisher 线性 判别 超过 某 一 阔 值 时 就 判决 为 类 别 o, S 
决 为 类 别 wm 。 更 一 般 的 说 ,如 果 我 们 对 投影 后 的 数据 进行 平滑 ,或 用 一 维 高 斯 函数 进行 拟 合 ， 
wo 就 可 以 选择 为 使 两 个 类 的 后 验 概率 相同 的 那个 位 置 。 

寻找 Fisher 判别 准则 下 的 最 佳 w( 公 式 (106)) 的 计算 复杂 度 主 要 由 计算 类 内 总 体 散 布 矩 
阵 (within-category total scatter) MH wh Wt Re ,其 复杂 度 为 OC(d?n)。 
3.8.3 多 重 判别 分 析 

对 于 c- 类 问题 ,把 Fisher 线性 判别 准则 作 推 广 就 需要 c 一 1 个 判别 函数 。 也 就 是 说 ,投影 
问题 实际 上 是 从 4 维 空间 向 c 一 1 维 空间 作 投 影 ,并 且 已 经 假设 d 宇 <。 类 间 散 布 矩 阵 的 推广 
也 是 明显 的 : 


Sw = 》 Si (109) 
i=l 
其 中 ,就 像 以 前 一 样 ， 
S = D(x — mi)(x — mi)’ (110) 
xeD; 
和 
l 
nj xe Di 


对 Ss 作 相 应 的 推广 并 不 显而易见 。 假 设 我 们 定义 总 体 均 值 向 量 m 和 总 体 散布 矩阵 Sz 
为 


j| le 
m= Ques 2 nm; (112) 


Sr = (x — m)(x — m)' (113) 
FRA 


Sr = YO (x — m; +m; — m)(x — m; +m; my 


i=] xéD; 


= D $ a- m;)(x — m;)' + 3 >_ (m; ~ m)(m; — my’ 


i=l xeD; i=l xeD; 


C 
= Sw + > nj(m; — m)(m; — m) (114) 


i=l 
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很 自然 ,把 上 式 右边 的 第 二 项 定义 为 类 内 散布 矩阵 。 因 此 总 散布 就 是 类 内 散布 和 类 间 敬 


布 的 和 


Sz = 》 ni(m, — m)(m; 一 mn) 


i=] 


(115) 


及 


Sr = Sy + Sg (116) 


QO AS ER ANT EIA AR IBAA 9 TO AB Be Ae BN ot ESC BY) K I) Aa AE BE E R E X K 


[ia] RAR BE AY ny 22 /n FES 。 l 
BK d 维 空间 向 c 一 1 维 空间 的 投影 是 通过 下 列 的 c 一 1 个 分 类 方程 来 进行 的 : 


y=wx i=1,..…,c—l 
如 采 我 们 把 y; 看 作 是 一 个 c 一 1 维 向 量 y 的 分 量 ,把 w; 看 作 是 一 个 4d xC DERE W 的 列 向 
量 , 那 么 公式 (117) 中 的 投影 方程 组 可 以 表达 为 简单 的 矩阵 方程 
y = W'x (118) 
对 原始 样本 Xi °° X, 进行 投影 后 ,得 到 了 新 的 样本 19 yo 这 些 新 得 到 的 样本 本 映 又 
具有 它们 自己 的 均值 向 量 和 散布 矩阵 。 这 样 ,我 们 定义 


(117) 


~、 1 
M =) y (119) 
! yey; 
~ Io ~ 
m= — n;m; (120) 
n i=] 
_ cC 
Sy = (y — m;)(y — m,)' (121) 
i=l] yey; 
Sp = 》 ni(i; — m)(m; ~ my’ (122) 
i=] 
容易 证 明 
Sw = WSwW (123) 
Sp = W'SpW (124) 


上 述 的 各 个 方程 说 明了 从 高 维 空间 向 低 维 空间 的 投影 的 过 程 中 ,类 内 散布 矩阵 和 类 间 散 
布 矩 阵 经 历 了 怎样 的 变换 (参见 图 3-6)。 我 们 的 目的 是 寻找 一 个 变换 矩阵 W ,能 够 在 某 种 意 
义 上 ,使 得 类 间 离 散 度 和 类 内 离散 度 的 比值 最 大 。 离 散 度 的 一 种 简单 的 标量 度量 是 散布 矩阵 
的 行列 式 的 值 。 由 于 行列 式 的 值 等 于 和 矩阵 的 本 征 值 的 乘积 ,也 就 是 在 各 个 主要 分 布 方 向 上 的 
方差 的 积 ,因此 ,行列 式 的 值 相 当 于 类 别 散 布 超 椭 球体 的 体积 的 平方 (参见 第 2 章 , 式 (46))。 
使 用 这 样 的 度量 方法 ,我 们 得 到 准则 函数 如 下 
ISa] 1WSsW| 
Sw = W'S) WI (125) 





J(W) = 


O ”我 们 可 以 为 两 类 的 情况 重新 定义 Ss ,从 而 得 到 完全 一 致 性 ,但 这 种 用 法 较 容 易 产 生 误 解 。 
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图 3-6 图 中 表示 3 SHES RHR KW 和 W 表示 的 二 维 平面 上 。 不 正式 的 
说 ,多 重 判别 方法 寻求 最 优 的 二 维 平面 ,也 就 是 说 ,对 于 一 个 给 定 的 全 体 类 内 散布 矩阵 ,这 个 二 维 平 
面 应 该 使 得 不 同 的 分 布 的 投影 结果 之 间 具 有 最 大 的 分 离 度 。 在 这 个 图 中 ,该 平面 就 是 平面 W 


求解 使 得 J.) 最 大 化 的 矩阵 W 的 过 程 需 要 一 些 技巧 ,但 最 后 的 解 的 形式 却 是 比较 简单 
的 一 一 最 优 和 矩阵 W 的 列 向 量 是 下 列 等 式 中 的 最 大 本 征 值 对 应 的 本 征 向 量 : 

Sew; = A;Sww; (126) 

下 面 ,我 们 简要 地 讨论 一 下 这 个 方程 的 解 的 一 些 性 质 。 首 先 ,如 果 Sw 是 非 奇 异 的 ,那么 
求解 方程 (126) 就 是 一 个 普通 的 本 征 值 问题 。 然 而 ,这 一 过 程 是 不 必要 的 。 事实 上 ,我 们 可 以 
用 求解 特征 多 项 式 的 根 的 方法 来 求解 本 征 值 .: 

lss — 和 iSw)=0 (127) 

然后 ,我 们 通过 求解 

(Sp — AiSw)w;=0 (128) 
计算 出 w. AA Ss 是 < 个 秩 为 1 或 0 的 矩阵 的 和 ,其 中 只 有 c 一 1 个 和 矩阵 是 互相 独立 的 ,所 以 
Ss 的 秩 为 一 1 或 更 低 。 这 样 , 非 零 的 本 征 值 至 多 只 有 c 一 1 个 ,所 需求 解 的 本 征 向 量 就 对 应 这 
些 非 零 的 本 征 值 。 如 果 类 内 散布 矩阵 有 各 向 同性 (isotropic) ,那么 这 些 本 征 向 量 就 是 Ss 的 本 
fE (el eet FP H PEAS HE [oy E PK CY) ZS (BY) BR AE AS GE tom; 一 m 所 张 成 的 空间 。 在 这 种 特殊 
情况 下 ,和 矩阵 W 的 各 个 列 向 量 可 以 直接 对 c 一 1 个 向 量 m, 一 mi 一 1,…，,c 一 1 进行 Gram- 
Schmidt 正 交 化 操作 而 得 到 。 最 后 ,注意 到 和 矩阵 W 的 列 向 量 并 不 是 惟一 的 。 对 坐标 轴 进 行 适 
当 的 旋转 或 尺度 拉 伸 也 是 允许 的 ,因为 这 些 都 是 从 c 一 1 维 空间 向 c 一 1 维 空 间 所 作 的 线性 变 
换 , 对 准则 函数 和 最 后 的 分 类 器 没有 影响 。 

如 有 果 我 们 能 够 得 到 的 训练 样本 非常 少 ,那么 我 们 就 不 得 不 向 更 低 维 数 的 空间 作 投 影 。 如 
果 训 | 练 样 本 比较 多 , 那 就 可 以 向 高 维 的 空间 作 投 影 , 我 们 将 在 第 9 章 更 深入 的 讨论 这 个 问题 。 
一 旦 我 们 已 经 把 原始 训练 样本 向 新 的 空间 作 了 投影 以 后 ,就 可 以 用 第 2 章 中 所 介绍 的 经 典 方 
法 来 设计 分 类 器 了 。 

在 两 类 的 情况 下 ,多重 判 别 分 析 提 供 了 一 种 合理 的 降 维 方法 。 在 原始 的 高 维 空间 中 难以 
运用 的 一 些 参 数 化 或 者 非 参数 化 的 方法 有 可 能 在 低 维 空间 中 得 到 很 好 的 运用 。 特 别 地 ,在 降 
维 以 后 ,有 可 能 对 每 一 类 都 独立 的 估计 协 方差 ,而 不 必 假 设 各 类 的 协 方差 相同 。 或 者 在 降 维 以 
前 无 法 假设 多 元 正 态 分 布 , 而 降 维 以 后 就 能 够 做 这 样 的 假设 了 。 当 然 ,如 果 变 换 以 后 导致 了 各 
类 数据 的 混杂 ,那么 对 于 数据 作 分 类 的 问题 仍旧 存在 。 然 而 ,还 存在 另外 一 些 降 维 的 方法 ,我 





102 a 第 3 人 章 





们 将 在 第 10 章 中 更 深入 的 讨论 降 维 的 问题 。 还 需要 指出 ,还 存在 着 另外 一 些 可 分 性 分 析 的 方 
法 。 有 的 根据 统计 显著 性 来 选择 特征 一 一 这 方面 的 论著 在 本 章 的 参考 文献 中 给 出 。 当 然 ， 
Fisher 线性 可 分 性 分 析 是 最 基本 的 也 是 得 到 广泛 应 用 的 方法 。 


‘3.9 ”期望 最 大 化 算法 


第 2 章 的 2. 10 节 中 我 们 学 习 过 在 样本 点 的 某 些 特征 丢失 的 情况 下 如 何 进行 分 类 的 问题 。 
我 们 现在 可 以 把 最 大 似 然 估计 方法 推广 到 允许 根据 一 些 可 能 包含 丢失 的 特征 的 样本 来 学 习 茶 
些 支配 分 布 的 参数 的 问题 。 如 果 数 据 样本 的 各 种 特征 都 是 完整 的 ,那么 可 以 直接 运用 最 大 似 
然 估 计 来 求 使 对 数 似 然 函 数 (9) 最 大 化 的 那个 6, 期望 最 大 化 (expectation- 
maximization, EM) 算 法 的 核心 思想 就 是 根据 已 有 的 数据 来 递归 估计 似 然 消 数 。 这 个 方法 的 
前 身 是 我 们 即将 在 3. 10. 6 节 中 讲述 的 Baum-Welch 算法 。 

考虑 一 个 完整 的 样本 集 DD, 其 中 的 样本 为 DD 二 {x;,… ,x,) ,都 服从 某 个 特定 分 布 。 假 定 其 
中 的 一 些 特征 丢失 了 ,也 就 是 说 , 任 一 个 样本 点 能 够 被 写作 x = {ws ,Xis} ,表示 这 个 样本 的 特 
征 由 两 部 分 组 成 ,一 部 分 特征 是 完整 的 , 另 一 部 分 特征 已 经 丢失 、 或 损坏 了 。 为 了 书写 方便 ,把 
这 些 不 同 的 特征 分 别 用 两 个 集合 来 表示 :De 和 D,, 它 们 的 并 集 就 是 全 部 的 特征 集合 : 
D=D,UD:. 

然后 ,组 成 函数 





Q(0; 0') = En, Un p(D,, Dy; 9)iIDP 8") (129) 
其 中 分 号 说 明 , 上 式 的 左边 QC(98;68) 表 示 一 个 关于 6 的 函数 ,而 # 被 假设 已 经 取 固 定 值 , 上 式 
的 右边 表示 关于 丢失 的 特征 求 对 数 似 然 函 数 的 期 望 ,其 中 假设 O 是 描述 整个 分 布 的 真实 参 
数 。 这 个 公式 是 期 望 最 大 化 方法 中 最 为 关键 的 公式 。 下 面 将 对 此 加 以 解释 以 帮助 读者 更 好 的 
理解 其 含义 :参数 向 量 8 是 当前 对 整个 分 布 的 最 好 的 估计 。 而 6 是 在 当前 估计 的 基础 上 , 进 
一 步 改善 的 估计 的 一 个 候选 参数 向 量 。 对 这 样 的 一 个 候选 参数 向 量 0, 公式 (129) 的 右边 计算 
数据 的 似 然 性 ,其 中 包括 对 丢失 的 特征 上 求 边缘 积分 。 不 同 的 9 值 计算 得 到 的 似 然 函 数 将 不 
同 。 从 中 ,我 们 选择 令 Q(9;b6) 取 得 最 大 值 的 那个 8 值 作为 新 一 轮 迭 代 的 最 佳 佑 计 , 记 作 &”。 
如 果 令 迭代 继续 进行 下 去 ,并 且 假 设 工 是 一 个 收敛 判 据 ,那么 ,算法 如 下 (图 3-7) 


Kl 3-7 运用 期 望 最 大 化 (EM) 算 法 寻 oe -@) 
找 最 佳 模型 的 过 程 如 下 :从 某 一 个 估计 
的 模型 参数 6 "开始 ,然后 ,通过 “M 
步 ”, 求 出 此 时 最 优 的 9:。 然 后 ,9 :被 
固定 , 求 出 使 得 Q(. ORR O. 
这 一 过 程 不 断 的 重复 ,直到 没有 6 能够 
进一步 增加 Q(. ;，) 的 值 为 止 。 特 别 
注意 ,这 一 过 程 和 梯度 搜索 方法 不 同 。 F 
例如 ,这 里 的 9: 是 全 局 最 优点 (在 固定 ' 2 
6" 时 ), 而 通过 梯度 搜索 方法 ,未 必 能 L 
找到 这 个 点 。 在 这 个 例子 里 ,QC。;“，) 
对 于 参数 是 对 称 的 ,但 是 ,在 更 普通 的 jn 
情况 ,这 一 对 称 性 不 一 定 满足 e g~ 
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算法 1 (期 望 最 大 化 算法 ) 

1 begin initialize 0 ,T,i<—0 

2 do i<it+1 

3 E 步 : 计 算 Q(6;6) 

4 M 2} 0! «—arg max Q(0; 6) 

5 until QC 56°) — Q ;@-' )<T 
6 return O00 
7 end 


期 望 最 大 化 算法 在 Q(。 ; .) 的 函数 形式 比 !(* ) 的 形式 更 简单 的 时 候 非常 有 用 。 更 重要 
的 是 ,这 个 算法 保证 了 好 数据 ( 坏 数据 已 经 被 边缘 积分 了 ) 的 对 数 似 然 函数 总 是 单调 递增 的 ( 参 
见习 题 44) 。 这 不 同 于 例 2 当中 ,寻找 使 得 完整 数据 的 对 数 似 然 最 大 的 那个 坏 特征 的 取 值 的 
作法 。 下 面 通过 例 2 来 加 深 读者 的 理解 。 


例 2 二 维 正 态 分 布 的 期 望 最 大 化 算法 
假设 数据 由 二 维 空 间 中 的 4 个 点 所 组 成 ,其 中 的 一 个 点 有 于 失 的 特征 D= (x ,x ,x X= 


GRG C ,其中 表示 样本 x 的 第 一 个 特征 的 人 未 知 。 这 样 , 这 里 的 坏 数据 集合 


Ds 就 由 特征 zu 组 成 ,而 好 的 数据 集合 Ds 则 由 其 他 所 有 特征 组 成 。 假 设 概率 模型 是 一 个 二 维 
高 斯 分 布 , 协 方差 矩阵 为 对 角 阵 。 这 样 , 未 知 参数 组 成 的 参数 向 量 就 可 以 写成 


Hı 

_ H2 
0 = o2 
a; 


初始 假设 是 一 个 均值 位 于 原点 , 协 方差 矩阵 为 单位 抢 阵 的 分 布 , 即 


0 
O 

0 一 
=]; 
1 


为 了 求 得 第 一 次 改善 了 的 估计 e ,我 们 必须 计算 Q(C0;8 ) ,或 者 说 ,必须 计算 式 (129)。 计 
算 过 程 如 下 : 
Q(0; 0°) = E,,, [In p(xg, Xb; 0)10°; Dg] 


oO 


3 
= J p In p(x, |0) + In palo) p(%41 8°; x42 = 4) dxa 
“oo k=1 


3 T X41 
=》 inpeulol+ f inp (**') 
k=1 


—oO 


s) P(C) 
LU 人) a ax) 


其 中 ra 是 样本 x 的 第 一 个 特征 ,是 未 知 的 ,而 积分 中 的 分 母 是 可 以 被 移 到 积分 之 外 的 。 我 们 


dxa 
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关注 积分 本 身 , 把 上 式 用 高 斯 函数 代替 ,得 到 
Q(6; 6°) = Siin plo] + > | inp 四 


—oO 


1 1 
6 zre- +4) dxa 
) a7 PL? 





3 2 2 
1+ 4 — 
一 5 [In p(x, |0)) 一 Ai L Sa — In(2xo10;) 
k=1 a 02 


这 就 完成 了 算法 中 的 “EE 步 ”。 通 过 直接 计算 ,我 们 求 出 最 大 化 QC(，;。) 之 后 的 OCR ji ,ps ,oi 
Ao, ) 值 可 以 得 到 下 一 个 估计 
0.75 
1 2.0 
0 = | 0.938 | 
2.0 


新 的 均值 和 协 方差 矩阵 的 1/e 都 表示 在 下 图 中 。 其 他 的 和 迭代 过 程 也 类 似 , 不 过 计算 更 加 复杂 。 
在 3 次 迭代 之 后 ,算法 在 下 列 值 处 收敛 : 


e= (zo) 0) 


0 2.0 


Xl 





图 中 表示 了 4 个 数据 点 ,其 中 一 个 数据 点 的 zx 分 量 丢失 (在 图 中 以 红色 表示 )。 初 始 估计 为 以 
原点 为 中 心 的 圆周 对 称 的 高 斯 函数 。( 事 实 上 ,根据 3 个 完整 的 已 知 点 ,能 够 得 到 更 好 的 初始 
估计 )。 每 一 次 迭代 都 使 得 估计 得 以 改善 ,用 迭代 的 索引 i 来 标记 。 这 里 ,在 3 次 迭代 以 后 , 算 
法 达到 收敛 。 

必须 注意 到 EM 算法 倾向 于 获得 好 数据 的 最 大 似 然 函 数 ,同时 尽量 的 把 坏 数据 边缘 化 。 
当然 ,存在 这 样 的 可 能 性 , 即 , 坏 数 据 的 某 些 特定 取 值 能 够 产生 更 大 的 似 然 函 数值 。 比 如 ,在 这 


2 
个 例子 中 ,如 果 丢 失 的 特征 实际 上 为 zu =2,BA x= ( ,我 们 得 到 结果 
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1.0 
2.0 
0= | 05 
2.0 


这 时 ,使 用 全 部 数据 的 似 然 明 数 要 比 只 使 用 那些 好 数据 的 似 然 涌 数 大 。 但 这 样 的 最 大 化 ,并 不 
是 经 典 期 望 最 大 化 算法 想 要 达成 的 目标 。 同 时 应 该 注意 ,如 果 没 有 特征 丢失 的 话 , 那 么 计算 
QUO; O ) 要 简单 容易 得 多 ,因为 这 样 就 不 用 涉及 到 复杂 的 积分 。 

“广义 期 望 最 大 化 ”(generalized expectation-maximization,GEM) 算 法 比 普通 的 期 望 最 大 
化 算法 要 松 一 些 , 因 为 只 要 求 在 算法 的 "M 步 ” 中 选取 一 个 有 所 改善 的 81 ,而 并 不 要 求 最 优 的 
那 一 个 。 当 然 ,GEM 算法 的 收敛 速度 显然 不 如 普通 EM 算法 快 ,但 是 GEM 算法 提供 了 很 大 
的 自由 度 , 来 让 用 户 自由 选取 计算 更 简单 的 途径 。 有 一 种 版 本 的 GEM 算法 在 每 次 迭代 时 ,都 
计算 未 知 特征 的 最 大 似 然 画 数 ,然后 依 此 来 重新 计算 0, 

在 实际 应 用 中 “期 望 最 大 化 ”这 个 术语 通常 也 用 来 党 统 地 表示 任何 这 样 的 迭代 过 程 : 在 这 
些 和 迭代 中 某 些 数据 的 似 然 画 数 得 以 递归 地 增加 。 这 时 候 的 这 些 算法 就 不 一 定 是 真正 的 严格 意 
义 上 的 期 望 最 大 化 算法 了 。 


3.10 ” 隐 马 尔 可 夫 模 型 


至 目前 为 止 ,我 们 所 处 理 的 问题 都 是 估计 类 条 件 密度 函数 中 的 参数 ,目的 是 做 出 一 个 判 
决 。 现 在 ,我 们 将 转 到 需要 进行 一 个 序列 的 判决 的 问题 。 在 一 些 与 时 间 相 关 的 问题 中 , 即 某 过 
程 随 着 时 间 而 进行 ,我 们 会 说 在 t 时 刻 发 生 的 事件 要 受 t 一 1 时 刻 发 生 的 事件 的 直接 影响 。 在 
处 理 这 些 问 题 时 , 隐 马 尔 可 夫 模 型 (hidden markov model, HMM) 获 得 了 最 好 的 应 用 ,例如 在 
语音 识别 领域 或 手势 的 识别 。 虽 然 本 节 中 使 用 的 符号 显然 要 比 先前 的 符号 复杂 一 些 ,但 是 最 
基本 的 思想 还 是 相同 的 。 隐 马尔 可 夫 模 型 具有 一 组 已 经 设置 好 的 参数 ,它们 可 以 最 好 地 解释 
特定 类 别 中 的 样本 。 在 使 用 中 ,一 个 测试 样本 被 归 类 为 能 产生 最 大 后 验 概 率 的 那个 类 别 ,也 就 
是 说 ,这 个 类 别 的 模型 最 好 地 解释 了 这 个 测试 样本 。 
3.10.1 一 阶 马 尔 可 夫 模 型 

我 们 考虑 连续 时 间 上 的 一 系列 状态 。 在 i 时刻 的 状态 被 记 为 o(z)。 一 个 (在 时 间 上 ) 长 为 
工 的 状态 序列 记 为 @7= {o(l),w(2)，…w(CT)} ,比如 ,我 们 可 能 有 @ = {01,0 os ,as yw， 
w}。 注 意 ,系统 可 以 在 不 同 的 时 刻 处 于 同一 个 状态 ,而 在 同一 个 时 刻 并 不 要 求 所 有 的 状态 都 
可 能 被 取 到 。 

产生 序列 的 机 理 是 通过 转移 概率 , 记 为 P(w (二 1L)1w(o)=ay ,表示 系统 在 某 一 个 时 刻 
处 于 状态 o: 的 情况 下 ,在 下 一 个 时 刻 变 为 状态 w 的 概率 。 注 意 , 这 个 概率 是 与 具体 的 时 刻 无 
关 的 , 即 可 以 用 ay 而 不 是 ay (1) 来 表示。 这 里 ,并 不 需要 转移 概率 是 对 称 的 , 即 不 需要 有 
a, 二 Qj, 而且, 有 可 能 前 后 两 个 时 刻 都 处 于 同一 状态 之 中 , 即 有 可 能 as 天 0, 如 图 3-8 所 示 。 

假设 已 经 有 了 某 一 个 模型 9, 即 全 部 的 转移 概率 a; 都 已 经 知道 ,并 且 还 知道 某 一 个 特定 的 
序列 oz 。 为 了 计算 该 模型 产生 这 个 特定 序列 的 概率 ,我们 需要 做 的 仅仅 是 把 连续 的 转移 概率 
相 乘 。 例 如 ,为 了 计算 产生 如 上 所 述 的 序列 的 概率 ,我 们 有 :PCw7 |9) 二 aisaszazsazial。 如 果 
已 经 知道 第 一 个 状态 的 先 验 概率 PCw(1) =o) ,那么 就 能 够 计算 出 完整 的 产生 该 序列 的 概率 。 
不 过 在 目前 ;为 简化 问题 起 见 ,可 以 暂时 不 考虑 第 一 个 状态 的 先 验 概率 。 

到 目前 为 止 ,我们 讨论 的 都 是 马尔 可 夫 模型 ,或 者 更 准确 地 说 ,是 一 阶 离 散 时 间 的 马尔 可 
夫 模型 ,因为 某 一 时 刻 的 概率 只 与 前 一 时 刻 有 关 。 例 如 ,在 产生 语音 的 马尔 可 夫 模型 中 ,我 们 
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知道 各 种 代表 性 的 音素 和 产生 连续 音素 的 模型 。 比 如 ,产生 单词 “cat” 的 音素 为 :/k/,/a/， 
/t/。 其 产生 过 程 为 从 音素 /k/ 转 移 到 音素 /a/ ,再 从 音素 /a/ 转 移 到 音素 /t/ ,最 后 从 音素 /t/ 转 
移 到 结尾 处 的 静音 。 

注意 ,在 语音 识别 中 ,人 的 听觉 系统 并 不 能 够 感觉 到 这 些 状态 ,我 们 能 够 感知 到 的 只 是 发 
出 的 声音 。 这 样 ,我 们 必须 改进 当前 讨论 的 马尔 可 夫 模 型 系统 ,引入 “可 见 状态 ”(visible 
state) 即 那 些 能 够 被 用 某 种 方式 观测 到 的 外 部 状态 ,和 w 状态 一 一 那些 不 能 被 直接 观测 
到 的 内 部 状态 。 


图 3-8 在 基本 马尔 可 夫 模 型 中 ,用 节点 来 表示 离散 的 状 
态 ww。 而 连 线 则 表示 转移 概率 ar 。 在 一 阶 离散 时 间 马 尔 
可 夫 模 型 中 ,在 任 一 时 刻 t, 系 统 位 于 状态 w(t)。 而 时 刻 
t 十 1 的 系统 所 位 于 的 状态 则 是 一 个 随机 函数 ,与 时 刻 t 时 
系统 的 状态 和 转移 概率 都 有 关系 











3.10.2 一 阶 隐 马 尔 可 夫 模 型 

我 们 继续 假设 在 某 一 个 时 刻 ,系统 都 处 于 某 一 个 状态 wb 中 ,同时 ,这 个 系统 还 激发 出 
某 种 可 见 ( 可 被 观测 到 的 ) 的 符号 v(z)。 虽 然 复 杂 的 马尔 可 夫 模 型 允许 在 每 一 个 时 刻 发 出 的 是 
连续 的 函数 (比如 功率 谱 ), 但 在 这 里 ,为 简便 起 见 ,我们 只 考虑 发 出 离散 符号 的 情形 。 就 像 处 
理 状态 一 样 , 我 们 把 特定 的 可 见 状态 序列 记 为 V = 二 4201) ,v2),…,v《T))}。 比 如 ,我 们 可 以 有 
可 见 状态 序列 Vf = {vs U1 9 U1 v5 ,V2 ,V3}。 

现在 ,能 够 发 出 可 见 状态 模型 的 工作 过 程 如 下 :在 tt 时刻 的 状态 w(t) 下 ,每 一 个 可 能 发 出 
的 状态 v. (zt) 都 有 相应 的 概率 。 把 这 个 概率 记 为 :PC (2) lw) =b. BARTER REW M A) 
可 见 的 状态 ,而 不 能 直接 知道 w 处 于 哪个 内 部 状态 ,所 以 整个 模型 就 被 称 为 “ 隐 马 尔 可 夫 模 
型 ”如 图 3-9 Bras). 


图 3-9 ” 隐 马 尔 可 夫 模 型 中 的 3 个 隐 状 态 。 而 在 它们 之 
间 的 连 线 则 表示 隐 状 态 之 间 的 转移 概率 。 红 色 的 字符 表 
示 在 每 一 隐 状 态 产 生 的 可 见 状 态 。 这 个 模型 表示 任何 方 
式 的 状态 转移 都 是 可 能 的 。 然 而 ,在 一 般 的 隐 马 尔 可 夫 模 
型 中 ,这 种 任意 的 状态 转移 并 不 能 得 到 保证 





3.10.3 ” 隐 马 尔 可 夫 模 型 的 计算 

现在 ,我 们 要 定义 一 些 新 的 术语 ,并 且 将 重新 整理 记号 系统 。 通 常 ,诸如 图 3-9 中 所 表示 
的 网 络 被 称 为 有 限 状 态 机 (finite state machine,FSM)。 如 果 网 络 内 部 的 转移 都 与 概率 相关 联 
的 话 , 那 这 样 的 网 络 就 被 称 为 马尔 可 夫 网 络 。 这 种 网 络 是 严格 地 符合 因果 关系 的 ,因为 下 一 时 
刻 的 状态 的 概率 只 与 上 一 个 时 刻 的 状态 有 关 。 如 果 只 要 选择 好 相应 的 合适 的 初始 状态 ,每 一 
个 特定 的 指定 的 状态 的 发 生 概率 都 非 零 ,那么 这 个 马尔 可 夫 模 型 就 被 称 为 是 “各 态 历 经 ” 
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(ergodic) 的 。 最 终 状 态 或 吸收 状态 (final. state 或 absorbing state) 则 是 指 系统 一 旦 进入 这 个 
状态 ,就 再 也 无 法 离开 的 情况 (比如 ao = 二 1, 则 系统 永远 处 于 初始 状态 )。 
前 文 提 到 ,我 们 用 si 来 表示 隐 状 态 之 间 的 转移 概率 ,用 br 表示 发 出 可 见 状 态 的 概率 ， 

aij = Plat + Dla) 

bj, = Pluz(t)\o;(t)) (130) 
我 们 要 求 在 每 一 个 时 刻 都 必须 准备 好 转移 到 下 一 个 时 刻 ,同时 要 发 出 一 个 可 见 的 符号 。 这 样 ， 
有 归 一 化 条 件 

>》aj=1 对 于 所 有 的 ; (131) 

j 


和 | 
》 bi = 1 对 于 所 有 的 j 
k 


其 中 的 求 和 分 别 是 针对 所 有 的 隐 状 态 和 可 见 符号 进行 的 。 

定义 了 这 些 符号 和 术语 之 后 ,使 得 我 们 可 以 关注 下 列 3 个 隐 马 尔 可 夫 模 型 的 核心 问题 : 

估 值 问题 假设 我 们 有 一 个 HMM ,其 转移 概率 a; 和 6; 均 已 知 。 计 算 这 个 模型 产生 某 一 
个 特定 观测 序列 V 的 概率 。 

解码 问题 “假设 我 们 已 经 有 了 一 个 HMM 和 它 所 产生 的 一 个 观测 序列 ,决定 最 有 可 能 产 
生 这 个 可 见 观测 序列 的 隐 状 态 序 列 mw 。 

学 习 问题 假设 我 们 只 知道 一 个 HMM 的 大 致 的 结构 (比如 隐 状 态 数 量 和 可 见 状态 数 
量 ), 但 ar 和 8x 均 未 知 。 如 何 从 一 组 可 见 符号 的 训练 序列 中 ,决定 这 些 参数 。 

我 们 下 面 将 依次 来 讨论 这 些 问 题 。 
3.10.4 ” 估 值 问题 

一 个 模型 产生 可 见 状态 序列 V 的 概率 为 


P(V") = 》 PVOP) (132) 


r=] 


其 中 的 > 是 每 个 特定 的 长 为 工 的 隐 状 态 序列 的 下 标 :o: = {0(1),0(2),%°,0(T)}, 在 有 c 个 
不 同 隐 状 态 的 情况 下 ,公式 (132) 共 有 ree =e” 个 项 。 这 样 , 根 据 公 式 (132) ,为 了 计算 模型 产 
生 这 个 特定 的 可 见 状 态 序列 Vi 的 概率 ,我 们 必须 考虑 每 一 种 可 能 的 隐 状 态 序 列 , 计 算 它 们 各 
自 产 生 可 见 状 态 序列 V 的 概率 ,然后 进行 相 加 。 了 可见 序列 的 概率 就 是 对 应 的 转移 概率 ay 和 
产生 可 见 符 号 的 概率 b 的 乘积 。 

因为 这 里 处 理 的 是 一 阶 马 尔 可 夫 过 程 , 因 此 ,公式 (132) 中 的 第 二 项 能 够 改写 成 


T 
P(o) =| P(t - 1) (133) 


t=1 
也 就 是 序列 中 的 转移 概率 依次 相 乘 。 在 等 式 (133) 中 ，,ow(T) 一 am 表示 最 终 的 吸收 状态 ,其 产生 
的 惟一 的 独特 的 可 见 符 号 为 v。。 在 语音 识别 中 ,wo 通常 用 来 表示 一 个 空 状态 或 没有 声音 发 出 
的 状态 ,而 符号 w 就 表示 静音 。 | 
因为 我 们 已 经 假设 每 个 时 刻 所 发 出 的 可 见 符号 的 概率 只 依赖 于 这 个 时 刻 所 处 的 隐 状 态 ， 
因此 ,等 式 (132) 的 第 一 项 能 够 写成 | 


T 
P(V" Ja?) = [| | Plo) (134) 


t=! 
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也 就 是 ,把 一 系列 的 六 依次 相 乘 。 将 式 (133) , 式 (134) 代 人 式 (132) ,我们 有 
rmax T | 


- P(V7) = > ] P(v(t)|lw(t)) Pw wt — 1)) (135) 


r=} t=1 


虽然 表达 式 (135) 看 起 来 非常 复杂 ,但 其 意义 却 是 非常 明确 的 。 观 察 到 可 见 状 态 序 列 VI 
的 概率 等 于 所 有 可 能 产生 这 个 可 见 状态 序列 的 隐 状 态 序 列 的 情况 的 相 加 ,而 每 一 种 可 能 的 隐 
状态 序列 的 情况 的 发 生 概 率 ,都 是 隐 状 态 之 间 的 转移 概率 和 产生 可 见 符号 的 概率 依次 相 乘 得 
到 的 。 所 有 这 些 都 由 参数 a; 和 6i; 捕 提 , 因 此 ,表达 式 (135) 的 计算 是 非常 直接 和 简单 的 。 然 
而 ,其 计算 复 洒 度 却 是 O(c T), 这 么 大 的 计算 量 在 实际 上 是 非常 不 现实 的 。 比 如 , 当 
c= 二 10, 丁 二 20 时 ,我 们 需要 进行 107 次 基本 运算 1 | 

事实 上 ,存在 者 另 一 个 计算 上 非常 可 行 的 替代 方法 , 即 我 们 递归 地 计算 PCV’). AAS 
一 项 PWD oa PEND w(t 一 1)) 均 上 只 涉 及 v(t) w(t) 和 w(t 一 1)。 我 们 定义 


0 :二 0 H j 冯 初始 状态 
ai(t)= 4 1 t=0 H j= 初始 状态 (136) 


>, a(t 一 Daijbjrv(?) 其 他 
记号 out 表示 由 上 时 刻 的 可 见 状 态 "( 幻 确定 的 转移 概率 5bi;。 因 此 ,只 需 对 具有 可 见 状态 
v7) 的 案 引 k 的 项 求 和 和 。aj(z) 表 示 我 们 的 HMM 在 上 时 刻 , 位 于 隐 状 态 ww ,并且 已 经 产生 了 可 
见 状态 序列 V 的 前 上 个 符号 的 概率 。 这 个 计算 公式 在 下 面 的 前 向 算法 中 得 到 使 用 。 




















算法 2 (HMM 前 向 算法 ) 
1 initialize 上 <-0,ay ,可见 序列 Viai(0) 一 1 
2 for 上 -上 十 ] 

3 a,(t)<-byv(t) > a(t — Day 

A until <= T 
5 

6 





return P(V’)<~RARAH a, CT) 
end 





在 第 5 行 中 ,oa 表示 序列 的 结束 。 前 问 算 法 的 计算 复杂 度 为 OCcT) ,这 比 公 式 (135) 的 穷 
举 法 的 效率 要 高 得 多 (图 3-10)。 如 果 同 样 当 c=10,T=20 的 情况 ,前 向 算法 只 需要 执行 2000 
次 操作 一 一 几乎 要 比 公式 (135) 的 方法 快 10” 售 ! 

下 面 我 们 介绍 后 向 算法 ,其 实 这 就 是 前 向 算法 的 时 间 反 演 的 版 本 。 


Ce rb we 


算法 3 (HMM 后 向 算法 ) 
initialize 8,(T) ,t<T.a; ,bx ,可见 序列 VT 





l 

2 for z<-t—1; 

3 BAUDA EB a+ Dayby v(t 1) 
4 until ¢= 1 
5 

6 





return P(V")«<-£,(0) 9 已 知 初始 状态 


end 





KAWE fe Me MARE a | 109 





t= 了 一 T 


图 3-10 ”用 前 向 算法 计算 序列 的 概率 能 够 通过 网 格 来 说 明 一 一 项 是 按时 间 对 隐 马 尔 可 夫 模 型 展 
开 。 假 设 我 们 要 求 时 刻 上 一 3 时 ,系统 位 于 状态 w ,并 且 产 生 了 所 规定 的 字符 序列 的 概率 。 系 统 在 
:一 2 时 刻 位 于 状态 w 的 概率 为 w; (2) ,i 一 1,2,…,c。 为 了 求 ay (3) ,必须 把 这 些 项 相 加 ,同时 乘 以 发 
出 字符 uy, AEE BM (3) 一 pe >， alan 


i=] 


例 3 隐 马 尔 可 夫 模 型 | 
为 了 进一步 理解 估 值 问题 ,考虑 如 图 3-9 所 示 的 隐 马 尔 可 夫 模 型 (HMM), 它 具有 一 个 明 
确 的 吸收 状态 和 惟一 的 独特 的 空 可 见 符 号 w , 而 转移 概率 为 ( 抢 阵 下 标 从 0 开始 ) 


1 0 0 0 
| 02 03 01 04 
i} 0.2 05 0.2 0.1 


0.8 0.1 0.0 0.1 


1 0 0 0 0 
b, -| 0 03 04 0.1 0.2 
k= | 9 01 01 07 01 


0 05 02 01 0.2 
观测 到 的 序列 为 VV 二 {vi ,vs ye d 要求 计 算 这 个 HMM 产生 这 个 特定 的 观测 序列 的 概率 。 
假设 我 们 已 知 在 :=0 时 刻 ,系统 的 隐 状 态 为 mw 。 每 一 步 的 可 见 符号 如 图 顶部 所 示 , 而 a; (i) 在 
每 个 单元 内 表示 。 圆 圈 表 示 从 左 向 右 进 行 时 的 a; COME. RE a,b, FRE R t= 到 t==2 的 
每 一 个 转移 链表 示 。 最 后 的 概率 PCV" 190) 因 此 为 0.0011， 
下 面 这 个 HMM 包含 4 个 隐 和 状态 (其 中 之 一 为 吸收 状态 os) ,在 每 一 个 状态 都 可 能 产生 5 
种 可 见 符号 中 的 一 种 。 在 表示 这 个 HMM 的 网 格 中 ,每 一 个 节点 上 的 数字 为 aj(t) 一 一 表示 截 
至 当前 时 刻 i, 模 型 产生 已 观测 到 的 序列 的 概率 。 例 如 ,我 们 知道 在 时 刻 t, 系统 处 于 隐 状 态 
w ;因此 a1(0)= 二 1, 并 且 对 任何 其 他 的 7 关 1,a;(0)= 二 0。 图 中 的 箭头 表示 了 计算 w (1) 的 过 程 。 
例如 ,因为 在 t= 二 1 时 刻 , 产 生 的 可 见 符号 为 w ,所 以 我 们 有 a (1) 二 a1 (0) ain bo) =1[0. 2 x 0]= 
0, 这 一 计算 过 程 由 最 上 面 的 箭头 表示 。 同 样 ,第 二 个 箭头 表示 计算 过 程 mw (1) 一 a (0)aiibu = 
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1[0. 3 x 0.3j==0.09。 在 这 个 例子 里 ,计算 a;(1) 特 别 简 单 , 因 为 只 需要 考虑 从 初始 状态 到 当 
前 状态 的 转移 ,而 不 必 考 虑 其 他 的 前 状态 的 影响 。 然 而 ,对 于 以 后 的 每 一 个 时 刻 ,在 计算 a (2) 
时 ,必须 考虑 该 状态 可 能 是 从 所 有 可 能 的 前 状态 所 转移 过 来 的 。 最 后 的 吸收 状态 处 的 概率 就 
给 出 了 观察 到 整个 序列 的 最 终 概 率 , 即 PCV" | 8) =0. 0011, 





- 
= 


“OOOO: 





-@O@O® ©: 
”OO © ©: 


如 果 我 们 把 模型 中 的 那些 概率 :a 和 ,都 用 参数 向 量 6 来 表示 。 那 么 ,根据 贝 叶 斯 公式 ， 
在 已 知 观测 序列 时 ,模型 的 概率 就 是 
P(V"|0)P(0) 


T — : 
POIV") = aa (137) 


在 隐 马 尔 可 夫 模 式 识别 中 ,我 们 可 能 会 有 多 个 HMM ,每 一 个 模型 代表 一 个 类 别 。 对 测试 样本 
进行 分 类 ,就 是 计算 哪 一 个 模型 产生 这 个 测试 样本 的 概率 最 大 。 举 例 来 说 ,在 HMM 语音 识 
别 中 ,可 能 有 两 个 模型 ,一 个 模型 用 于 产生 “cat” 的 发 音 ,而 另 一 个 用 于 产生 “dog” 的 发 音 。 对 
于 新 来 的 未 知 发 音 , 要 确定 哪个 模型 产生 这 个 发 音 的 概率 更 大 。 实 际 上 ,几乎 所 有 的 隐 马 尔 可 
夫 模 型 都 是 从 左 向 右 递 推 的 模型 ,如 图 3-11 所 示 。 


AAA AR Q 
8.8.8.8 8.8.8.8 HI) YY OO SAY 
W U We fel h Ww U H 


图 3-11 ”在 语音 识别 领域 ,通常 使 用 一 个 从 左 向 右 的 隐 轧 尔 可 夫 模 型 。 例 如 ,这 样 的 一 个 模型 能 
够 描述 发 音 "viterbi”, 其 中 由 代表 音素 /v/ ,ws 代表 音素 /i/ ,等 等 ,直到 wo 代表 最 终 状 态 。 这 样 的 
从 左 向 右 的 模型 比 起 通常 的 HMM 来 说 更 为 严格 ,因为 在 这 样 的 模型 中 ,由 于 不 允许 从 右 向 左 的 
递 推 , 因 此 禁止 了 时 间 反 演 
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前 向 算法 使 我 们 能 够 计算 PCV 10) 。 模 型 的 先 验 概率 PCb) 则 由 外 部 的 知识 所 确定 (在 语 
音 识 别 中 ,可 能 是 一 个 语言 模型 ) 。 这 个 先 验 概率 可 能 依赖 于 上 下 文 语义 ,或 者 是 前 面 所 发 出 
的 单词 ,等 等 。 如 果 这 种 知识 无 法 获得 ,通常 就 假设 P(b) 为 均 勺 分布, 并 且 以 后 在 任何 分 类 问 
题 中 都 加 以 忽略 (这 其 实 是 一 个 无 信息 先 验 的 一 个 例子 ) 。 


3. 10.5 解码 问题 


已 知 一 个 观测 序列 V ,解码 问题 就 是 寻找 最 可 能 的 隐 状 态 序 列 。 我 们 可 能 想到 采用 穷 举 
每 一 个 所 有 可 能 的 状态 序列 的 方法 计算 每 种 可 能 性 的 概率 。 这 将 是 一 个 计算 复杂 度 为 
OÅ 了 ) 的 问题 ,完全 不 现实 ,因此 必须 寻找 其 他 途径 。 我 们 实际 采用 的 是 如 下 这 个 可 能 是 最 
简单 有 效 的 算法 。 


算法 4 ( 隐 马 尔 可 夫 模 型 解码 算法 ) 


1 begin initialize Path< } ,2<-0 

2 for t<-t+ 1 

3 j<l 

4 for j=j +l 

5 a, (t)<byv(t) X a(t — lay 
| antil j= 

7 j «arg max a, (t) 

8 将 w; 添加 到 Path 

9 until <= T 


10 return Path 
11 end 


另 一 个 非常 类 似 的 算法 使 用 概率 的 对 数 , 并且 在 计算 总 概率 时 ,是 把 概率 的 对 数 进行 相 
加 。 这 个 算法 的 复杂 度 为 DO(czT)( 请 参见 习题 52) 。 

图 3-12 中 的 黑色 的 线段 表 示 的 就 是 算法 所 找到 的 路 径 , 它 把 每 一 时 刻 上 最 大 的 值 所 对 
应 的 隐 状 态 连接 了 起 来 。 然 而 ,这 里 还 有 一 个 问题 。 注 意 ,这 个 算法 本 身 并 没有 保证 找到 的 路 
径 是 一 条 合法 的 路 径 , 即 找到 的 路 径 有 可 能 是 不 连贯 的 。 比 如 ,这 个 算法 有 可 能 找到 一 条 包含 
模型 本 身 所 禁止 的 连接 的 路 径 , 如 例 4。 


H4 隐 马 尔 可 夫 模 型 解码 

我 们 试图 找到 根据 例 3 的 HMM ,形成 下 列 观测 序列 {ow ,ws ,wz ,wm ,wo) 的 最 可 能 路 径 。 
下 页 图 所 示 的 路 径 实现 了 局 部 的 最 优 , 请 特别 注意 ,从 状态 w 到 状态 w 的 转移 是 非法 的 ( 参 
考 例 3 中 的 对 转移 概率 a; 的 赋值 )。 
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图 3-12 ”在 解码 算法 中 ,对 每 个 时 刻 1, 都 寻找 从 前 状态 转移 过 来 并 且 使 得 产生 可 见 状态 vi 的 概率 
最 大 的 状态 。 这 些 状态 一 起 就 组 成 了 完整 的 路 径 。 因 为 这 是 个 局 部 最 优 过 程 ( 因 为 只 使 用 前 面 的 
序列 部 分 ,而 不 使 用 整个 序列 ) ,因此 算法 本 身 并 不 保证 整个 路 径 是 合法 的 。 例 如 ,有 可 能 在 i=5 
时 刻 , 最 大 概率 状态 为 om ,在 :一 6 时刻 ,最 大 概率 状态 为 wm ,这样 , 这 些 结果 会 在 整个 路 径 中 出 现 。 
而 这 个 情况 甚至 有 可 能 发 生 在 az = 二 PCwz (t+ Dla (7))==0 的 时 候 , 也 就 是 说 ,系统 进行 这 样 的 转 , 
移 是 不 允许 的 


隐 马 尔 可 夫 模 型 用 下 列 两 种 方式 处 理 速率 不 变性 问题 。 第 一 个 方式 是 转移 概率 本 喘 就 考 
虚 进 了 持续 时 间 的 概率 结构 。 另 外 一 种 方式 是 ,使 用 后 处 理 技术 把 重复 的 状态 删除 ,得 到 的 序 
列 是 与 速率 无 关 的 。 这 样 ;后 处 理 技 术 能 够 把 序列 和 1 ,aa ,as ,wy yy y We } 转 化 成 序列 {wl ,os， 
on) ,这 个 新 的 序列 对 于 语音 识别 来 说 更 加 适合 ,因为 在 语音 识别 中 我 们 知道 ,在 自然 状态 的 发 
音 时 ,基本 的 音素 通常 不 会 连续 地 重复 出 现 。 
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3. 10.6 学 习 问 题 

隐 马 尔 可 夫 学 习 问 题 的 目的 是 确定 模型 的 参数 一 一 即 从 一 组 训练 样本 中 ,确定 转移 概率 
ays 和 bn。 到 目前 为 止 ,还 没有 能 够 根据 训练 样本 确定 最 优 参 数 集合 的 办 法 ,但 是 ,通过 一 种 非 
常 直接 的 方法 ,我们 几乎 总 是 能 够 得 到 一 个 足够 令 人 满意 的 解答 。 

前 向 -后 向 算法 ( forward-backward algorithm ) 

“前 同 -后 向 算法 ”可 以 说 是 “广义 期 望 最 大 化 算法 ”的 一 种 具体 实现 。 这 一 方法 的 核心 思 
想 是 通过 递归 方式 更 新 权重 ,以 得 到 能 够 更 好 的 解释 训练 样本 序列 的 模型 参数 ， 

前 面 ,我们 定义 a;(7) 为 使 系统 在 zt 时刻 位 于 状态 w;, 并 且 已 产生 了 到 :时 刻 为 止 的 目标 序 
列 的 概率 。 类 似 地 ,定义 应 (bb 为 在 上 时 刻 位 于 状态 w 并且 将 产生 上 时 刻 之 后 的 目标 序列 (时 
RAM 1 十 1 一 了 T) 的 概率 ， 

0 olt) Eo H t=T 
Bi(t)= 4 1 wo (th=o H t=T (138) 
L; BEHI aijbjxv(t 十 1) 其 他 

为 了 理解 式 (138) ,设想 我 们 已 经 知道 了 直至 T 一 1 时 刻 的 所 有 的 a (2) ,我 们 希望 计算 模 
型 产生 最 后 的 可 见 符号 的 概率 。 这 个 概率 ,8.(T) ,就 是 转移 到 状态 w;(T) 的 概率 胶 以 这 个 隐 
状态 下 产生 最 后 的 可 见 符号 的 概率 。 根 据 式 (138) 对 BC(T) 的 定义 ,这 个 概率 如 果 不 是 0( 当 
w《 丁 ) 不 是 最 终 的 隐 状 态 时 ) ,那么 就 是 1。 这 样 ,BC(T 一 1) D) aba DAM 也 就 容易 理 
解 了 。 在 确定 了 B.(T 一 1) 之 后 ,也 能 够 类 似 地 确定 BCT 一 2) ,等 等 。 

但 是 ,现在 我 们 所 确定 的 ww (0 和 及 (0 仅仅 是 对 它们 的 真实 值 的 估计 ,因为 事实 上 ,我 们 还 
不 知道 式 (138) 中 的 转移 概率 a; 和 6;;。 为 了 解决 这 个 问题 ,定义 从 状态 w (一 1) 转 移 到 状态 
w (ti) 的 概率 Y), 

a(t — 1)ajpbj Bi 
P(V™|@) 
其 中 PC(V’'| 介 是 模型 用 任意 的 隐 状 态 路 径 产 生 序列 V" 的 概率 。 这 样 7; (2) 就 是 在 产生 序列 

VT 的 条 件 下 从 状态 w (一 1) 转 移 到 状态 ww (4) 的 概率 。 

现在 我 们 能 够 对 a; 做 出 进一步 改善 的 佑 计 了 。 在 任何 时 刻 ,序列 中 从 状态 o (一 1) 到 状 
AS w (为 的 转换 的 预计 值 是 >)，,75 (2), 而 从 w 的 任何 转移 的 总 预期 数 为 >) ，》) ae) 。 
这 样 ,ay( 即 从 (一 1) 到 w;(2) 的 转移 的 概率 估计 ) 可 以 通过 计算 从 w; 到 wj 的 预计 转移 数 和 
w: 的 任何 转移 的 总 预计 转移 数 之 比 而 求 出 。 即 是 

A = drat Yt) 
i. Dat Do valt) 

同样 地 ,可 以 获得 进一步 改善 的 对 于 bi 的 估计 。 通过 计算 某 一 个 特定 可 见 符号 产生 的 概 

率 ,我 们 有 


yi (t) = (139) 


(140) 


LL 2 Y(t) 
b, = 2% (141) 


jk 一 


D, 2270 


这 样 ,我 们 在 一 开始 ,可 以 使 用 大 略 的 或 者 说 是 任意 的 关于 a; 和 5; 的 估计 ,然后 根据 公 
式 (140) 和 公式 (141) 进 行 逐步 地 修正 ,直到 达到 收 伍 为 由。 这 就 是 著名 的 Baum-Welch BE, 
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或 称 为 “前 向 -后 向 算法 ”一 一 是 一 个 广义 期 望 最 大 化 问题 (具体 定义 请 参见 3.9 79). 


算法 5 (前 向 -后 向 算法 ) 
1 begin initialize a; ,Bb; ,训练 序列 V ,收敛 判 据 0, z<—0 
do z<—z 十 1 
由 式 (140) ,通过 a(z 一 1) 和 65(z 一 1) 计 算 a(z) 
由 式 (141) ,通过 a(z 一 1) 和 ble DHH ble) 








2 

3 

4 

5 ay (z)<a,;(z—1) 

6 by, Cz) (ZC— 1) 

7 until maxLas (z) ay (2—1) 14 (2) — by (2—1) ] <ð; (达到 收敛 ) 
8 return a; <a, (2) ;Ox bn Cz) 

9 


end 


第 7 行 是 收敛 判 据 , 尼 表 明 当 估计 出 的 转移 概率 的 变化 小 于 一 个 预先 设 定 的 立 值 后 即 停 
止 学 习 。 在 一 般 的 语音 识别 应 用 中 ,达到 收敛 通常 要 求 每 个 序列 提供 多 次 用 于 训练 (通常 小 
于 5 次 )。 其 他 一 些 流行 的 收敛 判 据 利 用 了 能 够 产生 全 部 训练 样本 的 所 学 习 的 模型 的 概率 。 


本 章 小 结 


如 果 我 们 已 经 知道 某 个 类 条 件 概 率 密度 函数 的 参数 形式 ,那么 就 可 以 把 寻找 这 个 分 布 本 
身 的 问题 简化 为 学 习 ( 估 计 ) 分 布 的 参数 的 问题 (对 每 一 个 类 o, 用 参数 向 量 6 表示 ) ,估计 结果 
就 可 以 直接 用 于 设计 分 类 器 。 最 大 似 然 估计 方法 寻找 的 是 能 最 好 的 解释 训练 样本 的 那个 参数 
值 一 一 也 就 是 说 ,使 得 观测 到 现 有 的 训练 样本 的 概率 最 大 化 (在 实际 应 用 中 ,为 了 简化 计算 起 
见 ,通常 使 用 的 是 对 数 似 然 函 数 ) 。 而 在 贝 叶 斯 参数 估计 中 ,这 些 参数 被 认为 是 某 种 具有 先 验 
概率 密度 的 随机 变量 ,而 训练 样本 的 作用 就 是 把 先 验 密 度 转化 为 后 验 密度 。 递 归 贝 叶 斯 方法 
通过 逐次 修正 的 办 法 来 更 新 贝 叶 斯 参数 估计 的 结果 。 虽 然 贝 叶 斯 估计 方法 在 理论 上 更 有 说 服 
力 , 但 在 实际 应 用 中 通常 更 多 地 使 用 最 大 似 然 估计 ,因为 最 大 似 然 估计 方法 更 容易 实现 ,并 且 
在 大 训练 样本 的 条 件 下 ,得 到 的 分 类 器 的 效果 也 较 好 。 

参数 向 量 9 的 充分 统计 量 s 是 一 个 关于 全 部 样本 的 函数 ,包含 了 训练 样本 中 有 助 于 确定 8 
的 所 有 有 用 信息 。 一 旦 知道 了 已 知 形式 的 概率 模型 (比如 ,指数 族 函 数 ) 的 充分 统计 量 ,我 们 就 
只 需要 从 训练 样本 中 估计 这 些 充 分 统计 量 ,就 可 以 进行 分 类 器 设计 了 。 

Fisher 线性 可 分 性 分 析 的 目的 在 于 寻找 一 个 子 空间 ,在 这 个 子 空间 中 各 个 类 别 能 较 好 的 
分 开 ,并且 在 子 空间 中 更 易于 设计 分 类 器 。Fisher 方法 的 一 种 推广 是 把 原 空间 映射 到 一 个 低 
维 的 子 空间 中 去 ,而 这 个 新 的 子 空间 可 能 不 止 一 维 。 

期 望 最 大 化 算法 是 一 种 即使 在 某 些 数据 丢失 的 情况 下 ,通过 递归 的 方法 实现 模型 参数 最 
大 化 的 方法 。 每 次 迭代 包含 两 个 操作 ,其 一 为 “下 步 ”, 这 个 步骤 尽量 消除 丢失 数据 的 影响 。 其 
二 为 “M 步 ”, 这 个 步骤 获得 新 模型 的 最 优 参 数 。 而 广义 期 望 最 大 化 算法 只 要 求 在 每 次 迭代 
中 ,参数 能 够 得 到 改进 就 行 ,而 并 不 要 求 每 次 迭代 得 到 参数 都 是 最 优 的 。 广 义 期 望 最 大 化 算法 
已 经 在 训练 各 种 模型 中 获得 了 广泛 的 应 用 。 

隐 马 尔 可 夫 模 型 (HMM) 由 一 些 代 表 隐 状态 的 节点 组 成 ,这 些 节 点 之 间 由 反映 不 同 状态 
之 间 互 相 转 移 的 转移 概率 相 联 系 。 每 一 个 隐 状 态 同 时 都 能 根据 不 同 的 概率 发 出 一 些 可 见 的 状 
态 。HMM 非常 适合 于 描述 序列 模型 ,特别 是 上 下 文 相关 的 场合 ,比如 语音 中 的 音素 。 所 有 的 
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转移 概率 都 能 够 从 训练 样本 序列 中 ,通过 前 向 -后 向 算法 (或 称 为 Baum-Welch 算法 ) 递 归 的 学 


习 得 到 。 这 个 算法 其 实 也 是 一 种 广义 期 望 最 大 化 算法 。 而 采用 HMM 进行 模式 分 类 ,就 是 选 
择 最 有 可 能 产生 当前 观测 序列 的 那个 模型 。 


文献 和 历史 评述 


最 大 似 然 舍 计 和 页 叶 斯 估计 这 两 种 方法 都 有 很 长 的 发 展 历史 了 。 最 初 把 贝 叶 斯 方法 引信 
模式 识别 领域 是 文献 L7] , 它 指出 当 类 条 件 概率 密度 函数 未 知 的 情况 下 ,正确 地 使 用 训练 样本 
的 途径 是 计算 Plw;|x,D)。 贝 叶 斯 自己 也 非常 看 重 无 信息 先 验 的 作用 。 一 个 详尽 的 对 不 同 
的 先 验 概率 的 研究 请 参见 文献 L17j[24]。 在 文献 [5] 中 ,详细 地 列举 了 这 方面 的 文献 资料 。 文 
献 L28] 中 ,描述 了 Gibbs 算法 ,而 文献 [16] 中 ,对 此 进行 了 深入 的 分 析 。 

主 成 分 分 析 是 一 种 经 典 的 多 元 统计 分 析 方 法 [19] ,在 广泛 的 工程 领域 中 都 得 到 了 重要 应 
用 。 文献 L26j 详 细 而 深入 地 描述 了 最 初 由 Fisher[13] 所 提出 的 线性 可 分 性 方法 ,文献 [9,12， 
15 ,26,35j] 也 进行 了 这 方面 的 论述 。 

期 望 最 大 化 算法 是 由 Dempster[11] 等 人 提出 的 。 文献 [27j 对 这 一 方法 和 其 发 展 历史 进 
行 了 详细 论述 。 文 献 L20,36j] 描 述 了 期 望 最 大 化 算法 的 在 线 版 本 。 而 专门 讨论 在 丢失 数据 情 
况 下 的 处 理 方 法 , 则 可 以 参考 文献 L31] , 当然 ,这 方面 的 进一步 深入 论述 这 超出 了 本 书 的 范围 。 

马尔 可 夫 在 分 析 俄 国文 学 家 普希金 的 名 著 《 叶 夫 盖 尼 。 奥 涅 金 》 的 文字 的 过 程 中 ,提出 了 
后 来 被 称 为 马尔 可 夫 框 架 的 思想 。 而 Baum 及 其 同事 则 提出 了 隐 马 尔 可 夫 模 型 [3,4] ,这 一 思 
想 后 来 在 语音 识别 领域 L[29,30j] 得 到 了 有 异常 成 功 的 应 用 。 同 时 , 隐 马 尔 可 夫 模 型 在 “统计 语言 
学 习 ”[8,18] 以 及 “序列 符号 识别 ”( 比 如 DNA 序列 )[2,23] 等 领域 也 得 到 了 应 用 。 人 们 还 把 
隐 马 尔 可 夫 模 型 扩展 到 二 维 领域 ,用 于 光学 字符 识别 [22]。 而 其 中 的 解码 算法 则 是 由 Viterbi 
和 他 的 同事 们 [14,37] 发 展 起 来 的 。 文 献 [34] 探 讨 了 隐 马 尔 可 夫 模型 和 图 论 模型 (比如 贝 叶 斯 
置信 网 ) 之 间 的 联系 。 

Knuth 的 经 典 著作 L21j] 是 最 初 研究 计算 复杂 度 的 著作 ,他 完成 了 这 个 领域 的 大 部 分 工作 。 
而 该 领域 的 标准 教科 书 [10] 对 于 在 计算 机 领域 没有 非常 强 的 背景 的 读者 是 一 本 更 好 的 人 门 性 
读物 (也 为 我 们 的 几 道 课 后 习题 提供 了 来 源 ) 。 最 后 ,参考 文献 [6 ,32,35] 都 是 模式 识别 方面 的 
很 好 的 教材 ,虽然 采用 了 与 本 书 有 所 不 同 的 方式 ,但 也 都 值得 推荐 。 


we 






fh 习题 
3.25 
1. & x AAR ATE ROR OF BE eB A: 
0e’ 720 
pixie) = | 0 A 
O05 AY PR IR 。 
DRE n PERA dod 都 独立 地 服从 分 布 p(x10) ,证 明 , 关 于 2 的 最 大 似 然 佑 
计 结 果 为 
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as #32 


(在 (a) 中 O=1 AYRE ARIGH M n 非常 大 时 ,最 大 似 然 估计 9 的 位 置 ， 


2. 令 工具 有 均匀 分 布 的 概率 密度 


p(x|8) ~ uoo =] Ve Osx <6 
Ca (Rit n SREA AD = (zz 都 独立 地 服从 pCr|O), WEAR XT FORM RKWA TR 
HRED PM RAAA max D]. 
(b) 假 设 n=5 个 样本 点 是 从 这 个 分 布 中 抽取 的 ,并 且 有 max x, = 0. 6。 画 出 在 区 间 
0 过 01 上 的 似 然 函 数 p(D19)。 并 且 解 释 为 什么 此 时 不 需要 知道 其 余 4 个 点 的 
值 。 


. 最 大 似 然 估计 也 可 以 用 于 信 计 先 验 概率 。 假 设 样本 是 连续 独立 地 从 自然 状态 w 中 抽 


取 的 ,每 一 个 自然 状态 的 概率 为 PCw)。 如 果 第 ,个 样本 的 自然 状态 为 o IARE 
zz 二 1 ,否则 Za = 0. 
Ca) HE HA 
P (zii ++, ZinlP(wi)) = | | Po — Pl) 
k=} 


Cb) HEBA XT PC(w;) 的 最 大 似 然 估计 为 
P (wi) = 1 $ zi 
n k=l 


并 且 简 单 解释 这 个 结果 。 


. 设 x 为 一 个 d 维 的 二 值 同 量 ( 即 其 分 量 取 值 为 0 或 1), 服 从 多 维 伯 努 利 分 布 


d 
P(x|0) = | [6*0 — 60)” 


i=] 
其 中 d= (0, ttt Gy)! 是 一 个 未 知 的 参数 向 量 ,而 0; Ax; =1 的 概率 。 证 明 ,对 于 4 的 最 
大 似 然 估 计 为 


和 1 . 
6-7 UM 


. 在 一 个 二 类 问题 中 ,P(ol ) 王 Pos) 王 0.5, 而 样本 x 的 分 量 z 为 二 值 变 量 。 假 设 每 一 


个 分 量 取 1 的 概率 为 
Pii = Pp 
pi2=1-p 
其 中 我 们 规定 pol/2. FBC AMAR d 趋 近 于 无 穷 时 ,误差 概率 趋 近 于 0。 这 个 问 
题 要 求 讨论 对 某 一 个 特定 的 样本 , 当 增 加 其 特征 的 个 数 时 的 情况 。 
(a) 假 设 这 个 样本 x= (215°, 24)' ATÆ] w ,证 明 对 p 的 最 大 似 然 估 计 为 
~ le 
2 一 了 d* 
(DHR H d BETES, p 的 性 质 。 并 且说 明 , 为 什么 即使 在 每 一 类 别 只 有 一 个 样 
本 的 情况 下 ,仅仅 靠 增 加 特征 的 个 数 , 就 能 使 分 类 误差 概率 无 限 的 小 。 
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(0) & T= 1/d > ,zi 代表 一 个 样本 的 分 量 中 1 所 占 的 比例 .分 别 画 出 当 d 较 小 和 较 
大 时 (比如 4 = 11 和 4 = 111),P(T|w) 关于 十 的 函数 图 像 ,这 里 假设 P= 0.6。 
并 且 简 单 解 释 结 果 。 
. 对 多 元 高 斯 分 布 ,推导 用 最 大 似 然 佑 计 方 法 估计 均值 和 协 方差 时 的 公式 (18), 19). 
并 且 明 确 地 给 出 可 能 需要 的 假设 条 件 。 
. 通过 分 析 下 面 的 例子 ,证明 如 果 模 型 本 号 与 实际 情况 符合 得 不 好 时 ,用 最 大 似 然 估 计 
获得 的 分 类 器 将 不 是 最 优 分 类 器 : 
假设 我 们 有 两 个 先 验 概 率 相 等 的 类 别 (P(wo) 一 Po) 一 0.5), 已 知 plxl|o,) ~ 
N(0,1) ,但 对 第 二 个 类 别 ,我 们 并 不 清楚 其 条 件 概率 ,因此 主观 地 假设 为 ;p(x|w)~ 
N(4,1)。 也 就 是 说 ,我 们 需要 用 最 大 似 然 方 法 估计 的 是 第 二 个 类 别 的 均值 。 设 想 , 第 
二 类 的 条 件 概率 实际 上 为 plela) ~NA,10°). 
(a) 如 果 样 本 个 数 很 多 的 情况 下 ,最 大 似 然 方法 估计 得 到 的 上 将 为 多 少 ? 
(b) 在 这 个 情况 下 ,用 最 大 似 然 方法 得 到 的 分 类 器 的 分 类 界面 是 什么 ? 
(c¢) 直接 使 用 知识 如 (zlo) 一 NO 和 zzlos) 一 NGL10 ) 进 行 由 叶 斯 最 优 分 类 器 设 
计 。 注 意 要 详细 说 明 分 类 界面 的 每 一 部 分 。 
(d) 再 回 过 头 来 考 虚 先前 的 模型 bp(zleos)~ 一 NGC,1)。 使 用 从 (cy 中 得 到 的 知识 得 出 使 
最 大 似 然 分 类 器 误差 概率 更 低 的 新 的 值 。 
(e) 讨 论 这 些 结果 ,特别 注意 先 验 的 模型 知识 的 重要 性 。 
. 在 这 个 问题 中 ,我 们 考虑 习题 7 的 一 个 极端 情况 , 即 ,使 用 最 大 似 然 方法 得 出 的 分 类 器 
具有 最 差 的 分 类 效果 ,也 就 是 误差 率 趋 近 于 100% 。 假 设 我 们 的 样本 实际 上 来 自 于 两 
个 一 维 分 布 
p(xlw) ~ [A — kjô(x — I) + kô(x + X)|] 
和 
plxlew2) ~ [1 — RECx + 1) + ke(x — X)] 
其 中 XADE, OSKO. 5 ,表示 总 的 概率 分 布 函 数位 于 士 X 附近 的 比例 。6(…) 为 
狄 拉 克 国 数 。 假设 我 们 的 错误 的 模型 为 力 ( 工 | an A ~ Na , 01 ) 利 轧 ( 工 」 az sH) 一 
NC 192) » FETT AB FE IX TR RIT RK MRT SE : 
(a) 考 虑 问题 中 的 对 称 性 ,证 明 在 由 无 穷 多 的 训练 样本 时 ,无论 上 和 X 如 何 取 值 ,分 类 
面 总 是 位 于 x=0 处 。 
(b) 回 忆 对 均值 wW 的 最 大 似 然 估计 总 是 分 布 本 身 的 均值 。 对 于 固定 的 x 值 , 求 X 的 值 ， 
使 得 均值 的 最 大 似 然 估计 能 够 实现 一 个 “开关 ”, 也 即 p Se 。 
(c) 4k=0.2,X=5 时 , 画 出 真实 的 分 布 和 高 斯 估计 。 这 时 的 分 类 误差 率 又 是 多 少 ? 
(d) 寻 找 一 个 X(k) ,要 能 够 保证 估计 出 的 yi 小 于 零 ( 由 于 对 称 性 ,这 也 将 使 得 ys 大 于 
零 )。 
(e) 根 据 上 一 步骤 得 出 的 Xk) ,用 k 的 函数 的 形式 给 出 分 类 误差 概率 。 
(人 假设 我 们 对 模型 作 如 下 的 限制 :有 =0 = 二 1, 这 将 导致 结果 如 何 变化 ? 
(g) 讨 论 为 什么 如 果 模 型 本 身 有 错 的 话 , 误 差 概率 会 趋 近 于 100%。 这 个 令 人 惊讶 的 结 
果 的 产生 是 不 是 因为 我 们 遇 到 了 参数 空间 中 的 某 个 局 部 最 小 值 ? 
. 证 明 最 大 似 然 估 计 中 的 不 变 特 性 一 一 也 就 是 ,如 果 2 为 0 的 最 大 似 然 估计 ,那么 ,对 于 
任意 的 可 微 函 数 r(.) ,对 r(9 的 最 大 似 然 估 计 都 是 r*(2) 。 
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10. 假设 我 们 这 里 采用 了 一 种 全 新 的 方法 来 估计 一 个 样本 集 DD== {xi ,x ,… ,Xx,) 的 均值 : 
即 直 接 指定 样本 集中 的 第 一 个 点 x 就 是 均值 。 
(a) 证 明 这 个 方法 是 无 偏 估 计 。 
(b) 说 明 为 什么 这 个 方法 仍然 是 不 可 取 的 。 
ll. 一 种 度量 同一 空间 中 的 两 个 不 同 的 分 布 的 距离 的 方式 为 Kullback-Leibler 散 度 (或 
Kullback-Leibler 距离 ) 
DkrrL(p1(X), p2(x)) = f m% In 2&9 dx 
p(x) 
这 个 距离 度量 并 不 符合 严格 意义 上 的 度量 必须 满足 的 对 称 性 和 三 角 不 等 式 关 系 。 假 
设 我 们 使 用 正 态 分 布 pi Cx) 一 NGC,ZE) 来 近似 某 一 个 任意 的 分 布 p(x). WEE REB y 
生 最 小 的 Kullback-Leibler 散 度 的 结果 为 下 面 这 个 明显 的 结论 ，: 
p = €>[x] 
£ = E.[(x — w(x a] 


F h po Be BE BS Ee pe (x) 进 行 的 。 


3.3% 
12. 证 明 公 式 (24) 至 公式 (25) 之 间 的 所 有 的 论断 。 
3.4 节 


13. $ xz) 一 NGC,Z) ,其 中 严 已 知 , 而 了 未 知 。 证 明 对 马 的 最 大 似 然 估计 为 
~ 1 n 
Z=- O- W a) 
n k=l 
(a) ESR aAa 一 trLAaa'] ,其 中 和 矩阵 的 迹 tr(A) 是 矩阵 A ATTRA. 
Cb) HE AA WA ew AT LAS PE 


| l 一 1 l 4X t 
p(X1, ,Xn|Z) 二 < 人 > l| tepl -zuf Le — We 一 pt) ] 


(OWE A= E, HHE A MATE ALA A. HEARNE LMA EBS 
出 
o. — l apex- 0 pe 
p(X1, ,Xn|Z) = Oryang pa Àa) exp| 了 (AI 十 +42) | 
(d) wE BH , 当 A, =A, 一 … 一 4 一 ] 时 , 似 然 函 数 达 到 最 大 。 并 且 解 释 这 个 结果 。 
14. 假设 palmes Ew) SN, D ,其 中 马 是 c 个 类 别 的 相同 的 协 方差 矩阵 。 从 中 独立 
地 抽取 样本 Xi 9 o X, ,并 且 都 加 以 标记 :2 seed, BD On X, 的 类 别 为 w; WZ, =1, 
Ca) EBA 
P(X. Xn, liye +s dal Mi, +s Mes È) 
no P 1 .2 
= a e -3Y — Mp) E) (Xk 一 有 | 
(b) 使 用 从 单一 的 正 态 分 布 中 抽取 的 样本 ,证 明 最 大 似 然 估计 由 
A D1 =i Xk 


p = 
y=! ] 
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和 
3 = — 》 (xe fa) — hu) 

k=1 | 
给 出 结果 ,并且 对 这 个 结果 进行 解释 。 
15. 考虑 学 习 单 变量 正 态 分 布 的 均值 的 问题 。 记 mm = o/h 表示 “决断 指标 ” 

(dogmatism) ,并 且 假 设 mm 根据 对 以 下 实际 上 并 不 存在 的 样本 取 均 值得 到 ;zxz, ,其 中 

kK 一 一 no 十 1] ,一 no 十 2 ,0。 

(a) 证 明 使 用 公式 (31) 和 (32) ,得 到 

Í n 
n + Mg, _ 





Hn = Xk 


—Agt! 


2 _ g? 
E n + no 
(b) 使 用 这 个 结果 来 解释 先 验 概 率 p) ~N (po 50). 
16. Ri AA BAM Tbr seas RE. 
(a) 证 明和 矩阵 恒等式 
(A`! 十 B-D- = A(A+ B)"'B = B(A+B)A 
(b) 为 了 使 上 式 成 立 ,A 和 B 是 否 必 须 为 方 阵 ? 
(c) 使 用 这 个 结论 ,证 明 能 够 根据 公式 (41) 和 (42) 推 导出 公式 (45) 和 (46)，。 
3.5 节 
17. 这 道 题 的 目的 在 于 当 4 维 多 变 量 伯 努 利 分 布 的 情况 下 ,推导 出 贝 叶 斯 分 类 器 。 如 同 
EA ,我们 这 里 对 每 个 类 都 单独 处 理 , 并 且 P(x|D) 实 际 上 表示 的 是 PCx| 卫 ,， 
w;)。 每 一 类 别 的 条 件 概率 密度 函数 如 下 : 





d 
P(x | 0) = {[@a — ĝa: 


Md FE AS BED = {x1 ，… ,x,} 中 的 样本 均 独 立 的 服从 这 个 概率 密度 函数 。 
(a) 如 果 s= (5, ttt Sa)! 为 所 有 的 样本 的 和 > UE BH 


d 
P(D|@) = [190 - 4)" 
i=l 
(b) 假 设 0 服从 均匀 分 布 ,使 用 恒等式 
] 
fora — 6)" do = 
j 
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min! 
(m+n-+ 1)! 


d 
— (n + 1)! Si — An Si 
p(@|D) = [I rm TO 


(c) 对 于 d=1,n=1 的 情况 , 画 出 这 个 概率 密度 函数 的 图 像 。 
(DE P(x|0)p(81D) 对 6 进行 积分 ,得 到 类 条 件 概 率 密度 函数 
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18. 


20. 


2l. 


22. 








d (si tl\" si +1\'7 
paid =[1(255) (1-5) 

(e) 如 果 我 们 把 PCx|19) 中 的 8 用 代替 ,得 到 P(x|D), 那 么 对 8 的 有 效 贝 叶 斯 估计 
是 什么 ? 

在 下 面 的 问题 中 ,考虑 关于 不 变性 的 知识 能 够 如 何 指 导 我 们 建立 先 验 概率 。 假 设 我 

们 有 一 个 二 值 变量 z, 其 取 值 方式 为 概率 p(0)= 二 p(x 二 1)。 设 想 我 们 观测 到 Dr = 

{x 9X2 ss Tn ,希望 求 Zna+l 一 ] 的 概率 ,用 下 面 的 比例 来 描述 : 

P(Xn41 = 1D") 
P(xn+! = 0/D") 

(DEX 5s 二 zd 十 十 Xa，p(t) 二 Pz 十 … 十 Xn+41 二 1)。 我 们 假设 交换 不 变性 ,也 就 是 
Wi D” 中 的 样本 的 顺序 可 以 进行 任意 的 交换 而 没有 任何 有 影响。 证明, 在 这 样 的 交 
换 不 变性 的 前 提 下 ,上 述 的 比例 等 于 

p(s + 1/641) 
p(s)/("t") 
ap (= GED AIRRA. 
s! (n+1—s)! 

(b) 当 n,n 一 s Als 都 比较 大 时 ,可 以 假设 p(s) 守 p(s 十 1), 这 时 的 比值 是 多 少 。 并 上 且 
解释 这 一 结果 。 

(c) 在 二 项 式 框 架 下 ,我们 寻找 一 个 使 得 As) 不 依赖 于 。 的 请 (0)， 其 中 


] 
p(s) = J (ea — 8)" p(0) dé 
0 


证 明 当 pCOAWAA AN Me pC ~UC0,1) ,这 个 要 求 能 够 满足 。 


,假设 我 们 有 一 组 训练 样本 ,都 服从 高 斯 分 布 , 其 协 方差 矩阵 互 已 知 , 而 均值 六 未 知 。 


进一步 假设 这 个 均值 e 本 身 是 随机 取 值 的 ,服从 均值 为 mo , 协 方差 为 DL 的 高 斯 分 

布 。 | 

(a) 均 值 e 的 MAP 估计 是 什么 ? 

(b) 假 设 我 们 用 线性 变换 来 变换 坐标 x 二 Ax, 其 中 A 为 非 奇 异 和 矩阵 。 那 么 ,MAP 能 
够 对 变换 以 后 的 下 做 出 正确 的 估计 吗 ? 并 加 以 解释 。 

考虑 无 信息 先 验 的 问题 ， 

Ca) 补足 详细 推导 公式 (55) 的 细节 。 

(b) 设 有 一 个 概率 密度 函数 定义 在 单位 圆 上 0 委 2rx, 有 一 个 角度 参数 0 和 散布 参数 
o。 那 么 这 些 参数 的 无 信息 先 验 是 什么 ?。 

说 出 在 公式 (53) 中 ,为 了 保证 估计 OIDE n> om Wt p(x10) ,p(0) 和 D" 所 

施加 的 限制 条 件 是 什么 ? 

在 下 面 我 们 将 给 出 一 个 例子 ,说 明 Gibbs 算法 可 能 导致 的 分 类 误差 概率 不 会 超过 贝 

叶 斯 最 优 分 类 器 的 期 望 误差 概率 的 2 倍 。 设 有 一 个 两 类 ,一 维 的 问题 ,第 一 个 类 别 的 

分 布 具 有 已 知 的 三 角形 分 布 , 中 心 为 z= 二 0, 半 宽度 为 1.0, 服 从 


> lx| <1 


palæ) = T(0,1) = 其 他 
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第 二 个 类 别 具 有 均匀 分 布 


p(xlw2) = U (u, 1) = | a hk <1 


同时 假设 第 二 类 的 均值 我 们 也 有 先 验 知识 , 即 pCO W Se 的 均匀 分 布 。 

(a) 对 未 知 的 参数 积分 ,计算 上 (zlas ) 。 

(b) 以 此 为 基础 , 求 贝 叶 斯 分 类 器 的 判决 点 zx*。 

(c) 计 算 贝 叶 斯 分 类 器 的 期 望 误差 概率 。 

(d) 现 在 考虑 Gibbs 算法 , 先 任意 选取 一 个 + 的 值 ,并 且 把 它 看 作 真 实 值 。 对 测试 样 
本 点 及 对 py 进行 积分 ,来 计算 用 Gibbs 算法 的 分 类 器 的 期 望 误 差 概 率 。 

《e) 比 较 (c) 和 (d) 的 结果 ,验证 Gibbs 算法 可 能 导致 的 分 类 误差 概率 不 会 超过 贝 叶 斯 
最 优 分 类 器 的 期 望 误 差 概 率 的 2 售 。 


3.6 $% 


23. 


24, 


25. 


26. 


27. 


28. 


假设 s 是 一 个 充分 统计 量 ,使 得 p(8|s,D)= pOl). (RB p(O|s)A0, EAA p(D|s,@) 
不 依赖 于 0。 
使 用 表 3-1 中 的 结果 ,证明 瑞 利 分 布 中 的 参数 2 的 最 大 似 然 估计 结果 为 : 


0 = 





其 中 向 量 S= (5) 5° ,54)' 是 样本 x, s**t Xp 的 均值 。 
通过 下 面 的 问题 来 验证 充分 性 是 一 个 整体 性 的 概念 ,也 就 是 说 ,如 果 s 是 8 的 充分 统 
计量 ,那么 s 和 6 的 各 个 对 应 的 分 量 并 不 必 也 是 充分 的 。 已 知 单 变量 高 斯 分 布 


p(x)~N(p,0) ,0= K ) 其 中 是 一 个 整体 性 的 参数 向 量 ， 


(a) 验证 统计 量 
一 $1 一 1 kai Xk | 
() l SDA xg 


确实 是 关于 参数 向 量 6 的 充分 统计 量 ,如 同 表 3-1 所 给 出 的 一 样 。 
(b) 证 明 s; 本 身 不 是 的 充分 统计 量 。 你 的 回答 取决 于 已 知 与 否 吗 ? 
OHH s RAAB SC 的 充分 统计 量 。 你 的 回答 取决 于 人 已 知 与 否 吗 ? 
假设 s 是 一 个 充分 统计 量 AH pC@|x,D) = pls). 
(a) 假 设 p(0|s) 关 0, 证 明 p(D|s,90) 不 依赖 于 0. 
(b) 构 造 一 个 例子 ,表明 不 等 式 p(8|s) 关 0 对 于 上 面 的 证 明 过 程 是 必需 的 。 


29. 考虑 柯 西 分 布 : 
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30. 
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其 中 6>0,a 为 任意 实数 。 

(a) 验 证 这 个 分 布 是 归 一 化 了 的 。 

(b) 对 于 固定 的 a,b 值 ,计算 分 布 的 均值 和 标准 差 。 并 且 解 释 结果 。 
(c) 证 明 这 个 分 布 对 均值 和 标准 差 不 存 在 充分 统计 量 。 

证 明 公 式 (21) 的 佑 计算 子 对 于 下 列 的 分 布 都 是 无 偏 的 : 
(a) 正 态 分 布 。 

(b) 柯 西 分 布 。 

(c) 二 项 式 分 布 。 

(d) 证 明 公 式 (20) 的 估计 算 子 是 渐进 无 偏 的 。 


3.7 $ 


31. 


32. 


33. 


Bita b 为 正常 数 ,n 为 一 个 可 变 的 参数 。 问 下 面 的 计算 复杂 度 是 否 正 确 

(a)a"t =0(a"). 

(b)a” =O(a’). 

(oat =0Ola")., 

Cd) HERR f(n)=OCf()). 

考虑 多 项 式 图 数 f(z) = Sax’ E-A x 的 估 值 ,其 中 的 系数 dist = 0,*,n—1 
均 已 知 。 

(a) 写 出 计算 该 多 项 式 函 数 的 一 个 复杂 度 为 OM ) 的 算法 的 伪 代 码 。 

(b) 证 明 , 这 样 的 多 项 式 函数 也 可 以 被 写作 


n—l 
f(x) = X axi = (++ (An-1X + an-2)x +: +a;)x + a 
一 0 


等 类 似 的 形式 (被 称 为 Horner 规则 )。 运 用 这 个 规则 来 设计 复杂 度 为 Om) Hit 
算 该 多 项 式 函 数 的 算法 。 
对 下 面 的 几 个 简单 的 算法 过 程 , 写 出 其 计算 复 末 度 , 用 变量 N,M,P,K 来 表示 。 
(a) 1 begin for :<-7+1 
sesti? 
until z= N 
return s 
end 
(b) begin for :<-7:+ 1 
sest T; X Ti 
until z= N 
return Vs 
end 
(c) beging for ;—j+1 
for ;< 十] 


S; Sj + Wij ti 


A UU NN = oO A Ww Ne o A WH PO 


until ¿= I 
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5 until j=J 
6 for k<«-k+1 

7 for j~j+1 

8 Tyr, WS j 

9 until j =J 

10 until k=K 

11 end 


34. 设想 有 一 台 单 处 理 器 的 计算 机 ,计算 能 力 为 每 纳 秒 (10-*s) 执 行 一 次 操作 。 下 表 左 边 
栏 表 示 在 不 同 假定 算法 中 这 样 操作 的 函数 相关 性 。 对 每 一 种 函数 ,计算 在 表 顶 端 列 
出 的 总 时 间 内 能 够 执行 的 最 大 数 n ARAR. 





fo ! 4 
en | o y O 
vet a 
mo | 
nogen | S o o 
a a a 
a a 
> | | 
rr | 
me 


l 
nl 





r= D(x — fin) Or — fin)’ 
k=1 
这 些 被 称 为 非 递归 公式 。 
(a) 用 这 些 公 式 计 算 样 本 均值 和 样本 协 方差 的 计算 复杂 度 分 别 是 多 少 ? 
(b)? 证 明 ,用 递归 方法 求解 样本 均值 和 样本 协 方差 的 公式 为 
1 
Ponti = fån + nop] ket 一 fin) 
n-li 1 
Ci = ont n+1 
(c) 用 这 些 递归 公式 计算 样本 均值 和 样本 协 方差 的 计算 复杂 度 分 别 是 多 少 ? 
(d) 在 什么 情况 下 ,你 会 偏 问 于 采用 非 递 归公 式 ; 而 在 什么 情况 下 ,你 会 偏 回 于 采用 递 
HAR. | 
36. 在 模式 分 类 中 ,我 们 经 常 遇 到 协 方差 矩阵 求 道 的 问题 。 如 习题 35 中 的 从 样本 xi，…， 
x, 中 获得 的 协 方差 矩阵 ,用 非 递归 方法 计算 其 逆 抢 阵 的 计算 复杂 度 为 DG )。 因 此 ， 


我 们 需要 寻求 计算 复杂 度 更 低 的 递归 方法 。 
(a) 证 明 下 面 和 的 Sherman-Morrison-Woodbury 矩阵 恒等式 : 





A ZA 
(Xn+1 bn) (Xn+1 Bn) 
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37. 





BR 3F 





(A + xy’)! 一 AT! — A xyA 
1 十 y'A-IX 

(b) 结 合 (a) 与 习题 35 ,证 明 
_] n ic, Cr (Xn41 一 Ben) (Xn41 一 fini Cy! | 


n+l = n — 1 n n2—-] 


m + (Xn+1 一 An) Cr (Knit _ fn) 








(c) 上 式 的 计算 复杂 度 是 多 少 ? 

(d) 在 什么 情况 下 ,你 会 偏向 于 采用 非 递 归公 式 ; 而 在 什么 情况 下 ,你 会 偏向 于 采用 递 
HAR. 

假设 我 们 要 使 用 “ 缩 并 ?方法 来 简化 两 个 类 别 的 高 斯 分 类 器 。 如 果 估 计 得 到 的 分 布 分 

别 为 NCH, 1) A NC, ,到 )。 为 了 按照 公式 (77) 使 用 缩 并 方法 ,证 明 我 们 必须 首先 

把 所 有 的 数据 归 一 化 为 方差 为 1。 


3.8% 


38. 


39. 


& p.(x|o,) ,i 二 1,2 为 任意 的 概率 密度 函数 ,均值 为 太 , 协 方差 矩阵 为 ,其 中 并 不 
BOR p.(x|w;) 必 须 为 正 态 概率 密度 。 令 y 一 w'x 表示 投影 ,并 且 设 投影 后 的 结果 的 概 
率 密度 函数 为 polod ,其 均值 为 ,方差 为 1。 

(a) 证 明 准 则 函数 


(ui — u2) 
Ji(w) = — 
l o? + o2 
当 
w= (2, + 32) (Pi 一 m) 时 取得 最 大 值 。 
(bo wR Pw) A w; 的 先 验 概率 ,证明 


2 
2 = pes tone 
当 | 
w = [P(E + P(w2)2] (ei — p2) 时 取得 最 大 值 。 
Co) 在 (a) 和 (b) 之 间 , 哪 个 与 公式 (96) 的 联系 更 密切 ,请 解释 为 什么 。 


表达 式 
Ly >» (yi 一 yi) 
mn mn fy, ypEV2 
”是 总 体 组 内 离散 度 的 度量 。 
(a) 证 明 这 个 离散 度 公式 等 价 于 


1 l 
Ji = (mı — m2} + —s? + — s? 
ny n? 
Cb) HEBA ,整体 离散 度 为 


l 1 
Jh = —s? + —s? 
ny n2 


Co) 如果 y 一 w'x, 证 明 在 约束 条 件 J2=1 下 ,使 得 Jy 最 大 化 的 w 为 
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其 中 
1 1 1/2 
A= cm — m2)’ (+s; + 57) (mi 一 ma) | 
nl Ma2 


] 
m; = — > X 
nj xeD; 


S; = 》 n;(m; — m)(m; 一 mm) 


xeD; 


40. WMR Ss 和 Sw 为 两 个 对 称 & x d 的 实数 矩阵 ,那么 我 们 知道 存在 着 ”个 本 征 值 


41. 


42. 


43. 


) An HAE |Sp—ASw | 0, 和 对 应 的 二 个 本 征 向 量 ee, ,满足 Sse =A Swe; 

而 且 , 当 Sw 正定 时 ,这 些 本 征 向 量 就 能 够 被 归 一 化 ,因此 eiSwe, =0; 和 eSse 一 00，。 

令 Sw 二 W'SwW 和 Ss 一 WSsW, 其 中 W 为 一 个 d x n 的 矩阵 ,其 各 列 向 量 对 应 于 前 

面 所 述 的 n 个 本 征 向 量 。 

Ca) 证 明 Sw 是 一 个 n x n HACE LS, 是 一 个 对 角 和 矩阵 ,其 中 各 个 对 角 线 上 的 
元 素 正 好 是 前 面 所 述 的 = 个 本 征 值 。( 这 表明 多 重 判 别 函数 分 析 中 的 判别 函数 都 
是 互 不 相关 的 。) | 

Cb) J= (Sp | /|Sw | 的 值 。 | 

(0) 令 y= 二 W'x。 然 后 令 y 一 QDy, 其 中 DD 为 n x 的 非 奇异 对 角 和 矩阵 ,表示 对 坐标 轴 
的 尺度 变换 ,Q 为 正 交 抢 阵 ,表示 对 坐标 轴 的 旋转 。 证 明 J 对 这 种 变换 具有 不 变 
HE. 

考虑 两 个 正 态 分 布 , 它 们 的 协 方差 矩阵 相同 ,但 都 是 任意 的 。 证 明 , 对 于 一 个 合适 的 

fA, Fisher HE RAR LA a BO AT BR LE RBA. 

考虑 Fisher E 5) 4p VE 4) oh P AY EDU wa J Cw). 

(a) 推 导 从 公式 (96),(98) 到 公式 (102),(103) 之 间 被 省 略 的 步骤 。 

(b) 使 用 矩阵 方法 ,证 明 公 式 (103) 确 实 可 以 根据 公式 (104) 来 得 到 .。 

Cc) 在 准则 函数 JCw) 的 极 值 点 处 ,w 的 微小 变化 不 会 引起 准则 函数 JCw) 值 的 改变 。 
考虑 微小 变动 w>w 十 Aw, 推 导 公式 (104) 的 解 的 条 件 。 

考虑 Fisher 方法 的 多 重 判别 版 本 , 即 d 维 空间 中 的 c 高 斯 分 布 。 它 们 的 协 方差 矩阵 

相同 ,但 是 均值 不 同 。 求 由 协 方差 和 < 均值 向 量 表 示 的 最 优 子 空间 。 


3.9 节 


44, 


考虑 “期 望 最 大 化 算法 ”(EM) 的 收敛 性 。 也 就 是 说 ,如 果 1(6,Ds)==lInp(Ds;06) 不 是 
已 经 达到 最 优 的 ,那么 期 望 最 大 化 算法 将 增加 这 个 值 。 用 下 面 的 提示 来 证 明 这 个 结 
论 ， | 
(a) 首 先 注意 到 

1(0; Dg) = In p(D,. Dp; 0) — In p(Dy|Dg; 0) 


Se Le FERED pDl D COTRA., HAM LOD MWe. HAs 
结果 用 式 (129) 中 的 Q(0;0 ) 来 表示 。 
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45. 


4 


mo 


47. 
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(b) EXD) = PD | Dg38)/p(Ds|De 36) AMMA HA PAZ. WE 
HA € [Dn #(Ds) JE" LPC Do) ]—1=0 成 立 。 

(c) 使 用 上 面 的 结果 ,证 明 如 果 QUO? 56) > QO 56) (通过 算法 1 中 的 “M 步 " 来 得 
到 ) ,那么 不 等 式 LC | Dy) > LO ;Ds) 成 立 。 

假设 我 们 要 从 数据 集 D 中 估计 一 个 多 维 分 布 的 参数 86。 而 这 个 数据 集中 某 些 数据 特 

征 已 经 丢失 。 考 虑 一 个 递归 算法 ,其 中 计算 这 些 丢失 的 特征 的 最 大 似 然 , 然 后 把 这 些 

最 大 似 然 当 作 正 确 的 值 ,来 进一步 估计 多 维 分 布 的 参数 8。 并 且 通 过 这 种 方式 ,进行 

多 次 迭代 。 

(a) 这 样 的 算法 接近 于 期 望 最 大 化 算法 ,还 是 更 接近 于 广义 期 望 最 大 化 算法 ? 

(b) 如 果 这 就 是 期 望 最 大 化 算法 ,那么 这 时 的 Q(0;) 该 是 什么 ? | 


| 考虑 数据 一 | (3 ), (1 ) ，( 4) (0) (2) |, 宰 本 都 独立 地 服从 一 个 二 维 的 均匀 分 布 。 


3 l 4 


* 


1 Xl SX S Kul 及 
Xut =x hu zl Xn E X S Xw 


€ 其 他 


其 中 * 代表 丢失 的 数据 ,E 是 很 小 的 正常 数 , 当 在 上 述 界 内 归 一 化 密度 函数 时 可 以 忽 
略 不 计 。 


p(x) ~ U(x), Xu) = 


0 
Ca) 假设 初始 估计 为 = (* )= M ,计算 Q(0;6°) (EM WHE HAY E $). 


10 
(b) 求 使 得 Q(0;@ ) 最 大 的 那个 OCEM 算法 中 的 M 步 )。 你 可 以 作 某 些 简 化 的 假定 。 
(c) 男 出 数据 和 边界 矩形 。 
(d) 不 进行 新 的 迭代 计算 ,猜测 EM 算法 收敛 时 6 的 值 。 


考虑 数据 = | (1 ), (3 } C | ,样本 者 独立 地 服从 一 个 二 维 (分 开 的 ) 的 分 布 


FE! xy BO 
p(x) | 0 其 他 
和 
l 
D ~ ~ 0 
p(x2) ~ UO, &) = | bs se S 
其 中 * 代表 丢失 的 数据 。 


(假设 初始 估计 为 "二 ( ,计算 QOP (EM 算法 中 的 巨 步 )。 特 别 注意 要 对 分 
布 进行 归 一 化 

Cb) 求 使 得 QC0;9") 最 大 的 那个 OCEM 算法 中 的 M 步 )， 

Ca 在 一 个 二 维 的 图 上 夯 出 你 的 数据 ,并 且 注 骨 新 估计 出 的 参数 的 位 置 ， 


l 3 


48. 使 用 数据 D 一 | ( ; ) ,( 3 ) , (2 ) asa 47 题 。 


RAM fe it fo Re MAR sit m 127 


30. 


ol. 


3. 10 节 
49. 考虑 用 前 向 -后 向 算法 训练 一 个 HMM。 已 知 一 个 长 为 工 的 训练 序列 ,其 中 每 一 个 时 


刻 都 可 能 取 c 个 符号 中 的 一 个 。 那 么 全 部 更 新 一 次 a; 和 px 计算 复杂 度 是 多 少 ? 

在 HMM 中 ,计算 一 个 序列 出 现 的 概率 的 标准 方法 是 使 用 前 向 概率 a (2) 。 

Ca) HEB SO ARIE a (1) 替 换 成 后 向 概率 A A) ,那么 也 可 以 得 到 一 个 对 称 的 解法 。 

(b) 证 明 , 如 有 果 把 前 向 概率 和 后 向 概率 在 序列 中 间 的 任意 一 点 结合 起 来 ,那么 我 们 就 
可 以 得 到 一 种 混合 的 算法 ,也 就 是 说 ,请 证 明 


p 
Piw) = 》 DB) 


i=l 
其 中 o 是 前 面 的 长 为 T' 的 序列 ,TT <<T。 
(c) 证 明 ,在 序列 的 最 前 部 和 最 后 部 ,上 述 的 公式 就 分 别 退化 成 前 向 公式 和 后 向 公式 。 
假设 我 们 有 从 一 个 HMM 产生 的 许多 序列 样本 。 这 个 HMM 中 ,对 一 些 特定 的 ; 和 
j ,有 azi' 二 0。 我 们 用 这 些 序列 去 训练 一 个 新 的 HMM, 而 这 个 新 的 HMM 恰好 从 
ay; =0 开始 。 证 明 , 如 来 使 用 前 向 算法 ,那么 这 种 参数 将 仍然 保持 为 零 。 也 就 是 说 ， 
如 采 需 要 被 训练 的 HMM 的 拓扑 结构 ( 非 零 概率 的 连接 ) 和 最 原始 的 产生 这 些 序列 的 
那个 HMM 相 匹 配 的 话 , 那 么 在 训练 完成 之 后 ,拓扑 结构 仍 将 保持 不 变 。 


52. 考虑 算法 4 所 描述 的 解码 算法 。 


(a) 把 HMM 中 的 概率 取 对 数 , 写 出 相应 的 算法 的 伪 代 码 。 


(b) 解 释 为 什么 概率 取 对 数 的 计算 复杂 度 为 O(n), 因 此 新 的 算法 的 计算 复杂 度 为 
OCT). 


P 上 机 练习 
下 面 的 一 些 练习 将 会 用 到 如 下 3 个 类 别 的 三 维 数据 ， 
es ae a T yooo iga a N ae 
样本 | X? X3 xy T? X3 Xl £T? X3 
] 0. 42 一 0. 087 0. 58 一 0. 4 0. 58 0. 089 0. 83 1. 6 —0. 014 
2 一 0. 2 = 3. 3 = gA ==). 31 0. 27 — 0. 04 1.1 1.6 0. 48 
3 1.3 一 0. 32 ] 0. 38 0. 055 ”一 0.035 一 0. 44 一 0. 41 0. 32 
4 0. 39 0. 71 0. 23 一 0. 15 0.53 0.011 0. 047 一 0. 45 1,4 
5 一 1.6 =~; —0.15 一 心 ; 35 0. 47 0. 034 0. 28 0. 35 3. 1 
6 一 0. 029 0. 89 — 4.7 0. 17 0. 69 Q. 1 — 0. 39 一 0. 48 0. 11 
7 — 0. 23 1.9 2. 2 一 0.011 0. 55 一 0. 18 0. 34 一 0. 079 Q. 14 
8 0. 27 一 0. 3 — Q. 87 - 0. 27 0. 61 0.12 — 0.3 一 0. 22 2.2 
9 —1.9 0.76 — 2.1 — 0. 065 0. 49 0. 0012 1.1 | 一 0. 46 
10 0. 87 —1.0 —2.6 —0. 12 0. 054 — 0. 063 0.18 一 0. 11 — 0. 49 
3.2% 


1. 考虑 不 同 维 数 下 的 高 斯 概率 密度 模型 。 


(a) 编 写 程序 ,对 表格 中 的 类 m 中 的 3 个 特征 xz; ,分 别 求解 最 大 似 然 估计 4 和 oi。 
(b) 修 改 程序 ,处 理 二 维 数据 的 情形 p(x) ~N(4, 王 ) 。 然 后 处 理 对 表格 中 的 类 ww 中 的 
任意 两 个 特征 的 组 合 ( 共 3 种 可 能 )。 
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(c) 修 改 程序 ,处 理 三 维 数 据 的 情形 p(x) ~N(H,Zd)., SRG ARPT P mw 中 3 
个 特征 的 组 合 。 
(d) 假 设 这 个 三 维 高 斯 模型 是 可 分 离 的 , 即 王 = diag(o?, oz,oj), 写 一 个 程序 估计 类 别 
ws 中 的 均值 和 协 方差 矩阵 中 的 3 个 参数 。 
Ce) 比较 前 4 种 方式 计算 出 来 的 每 一 个 特征 的 均值 ; 的 异同 。 并 加 以 解释 。 
(f) 比 较 前 4 种 方式 计算 出 来 的 每 一 个 特征 的 方差 地 的 异同 。 并 加 以 解释 。 
3. 3 节 
2. 考虑 一 个 具有 两 个 参数 的 一 维 三 角形 概率 模型 


— ix — 2 _ 
pal =T=] 人 |x — p|)/d ih 


其 中 6 一 ài) 编写 程序 ,对 类 别 ws 中 的 特征 z 使 用 贝 叶 斯 方法 估计 概率 密度 


plz|D)。 并 且 曾 出 后 验 概率 p(x1D)。 

3.4 节 

3. 考虑 对 一 维 高 斯 函数 的 均值 进行 由 叶 斯 估计 。 假 设 已 知 均值 服从 分 布 PC 一 NG ,0 )。 
(a) 编 写 程 序 , 画 出 已 知 Ho sTo 90 和 训练 样本 集 D= 《Zi ,Zn 时 的 概率 密度 如 (zz| 刀 ) o 
(b) 对 类 别 w 中 的 特征 22 ,估计 它 的 o。 假设 mm 三 一 1 分别 对 下 列 值 :c /es :0.1，,1.0， 

10,100 画 出 估计 结果 p(x|1D)。 
3.5 节 
4. 假设 我 们 的 数据 是 从 一 个 二 维 均匀 分 布 


Xn SX, S Xu RM Xn S X2 S Xy2 


| d 
p(x|@) ~ U (Xi, Xu) = | a suas 
0 其 他 


中 抽取 的 ,其 中 一 (一 。) ,区 一 (、。)。 编写 程序 ,使 用 递归 贝 叶 斯 学 习 算法 ,估计 


p(x|D)。 并 且 处 理 表 格 中 类 别 w 的 zt 和 xs 分 量 。 然 后 对 每 一 个 扩展 的 数据 集 
D” (2 之 n 志 10), 画 出 后 验 概率 。 

3.6% 

5. 编写 程序 ,对 指数 族 函 数 中 的 任意 一 个 计算 充分 统计 量 。 然 后 ,假设 类 别 w 中 的 特征 
zi 就 是 服从 这 个 分 布 的 数据 ,对 下 面 的 分 布 计算 充分 统计 量 :高 斯 分 布 , 瑞 利 分 布 , 麦 
克 斯 韦 分 布 。 

3.7 节 

6. 考虑 不 同 维 数 下 的 误差 概率 。 

(a) 对 类 别 ww 和 ws 中 的 三 维 数据 ,使 用 最 大 似 然 估计 算法 训练 判别 函数 ,并 且 使 用 数 
值 积 分 来 估计 分 类 误差 概率 。 

(b) 把 这 些 数据 投影 到 二 维 子 空间 中 。 对 下 列 的 3 个子 空 间 一 一 分 别 根据 zi 一 0,x; 二 0， 
2, =0 来 定义 一 一 训练 高 斯 判别 函数 。 并 且 使 用 数值 积分 来 估计 分 类 误差 概率 。 

(c) 把 这 些 数 据 投影 到 一 维 子 空间 中 , 也 分 别 根据 3 个 坐标 轴 来 定义 。 训 练 高 斯 判别 
函数 。 并 且 使 用 数值 积分 来 估计 分 类 误差 概率 。 

(d) 讨 论 你 得 出 的 误差 概率 的 排序 (rank order). 
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(e) 假 设 你 在 不 同 的 维 数 下 重新 估计 这 些 误 差 概率 ,那么 贝 叶 斯 误差 概率 一 定 比 投影 
后 的 空间 的 误差 概率 大 吗 ? 
7. 对 类 别 o 和 ws ,重复 习题 6。 
8. 在 对 服从 高 斯 分 布 的 数据 的 分 类 中 ,考虑 缩 并 方法 ,假设 各 类 的 协 方差 矩 阵 相同 。 
(a) 对 下 列 的 相同 先 验 概率 的 三 维 高 斯 分 布 NC , 允 ;) ,分 别 生 成 20 个 样本 点 : 


AI = (0, 0, 0)’, Z; = diag[3, 5, 2] 
1 0 0 
m = (1, 5, 一 3) ， ,=[10 4 1 
O I 6 
u3 = (0, 0, 0) ， 3 = 101 


(b) 编 写 程序 ,估计 你 的 数据 的 均值 和 协 方差 。 
(c) 根 据 公 式 (76) ,编写 程序 , 缩 并 这 些 协 方差 矩阵 。 
(d) 画 出 训练 误差 关于 a 的 函数 图 像 ,其 中 <a]. 
(e) 如 同 (a) 中 ,产生 50 个 数据 , 画 出 训练 误差 关于 a HRA. 
3.8 i 
9. 考虑 Fisher 线性 判别 方法 。 
(a) 编 写 用 Fisher 线性 判别 方法 ,对 三 维 数据 求 最 优 方 向 w 的 通用 程序 。 
(b) 对 表格 中 的 类 别 o 和 w ,计算 最 优 方向 w. 
(c) 画 出 表示 最 优 方向 w 的 直线 ,并 且 标 记 出 投影 后 的 点 在 直线 上 的 位 置 。 
(d) 在 这 个 子 空间 中 ,对 每 种 分 布 用 一 维 高 斯 函数 拟 合 ,并 且 求 分 类 决策 面 。 
(e)(b) 中 得 到 的 分 类 虽 的 训练 误差 是 什么 ? 
(f) 为 了 比较 ,使 用 非 最 优 方向 w= 二 (1.0,2.0, 一 1.5)' 重复 (d)(e) 两 个 步骤 。 在 这 个 非 
最 优 子 空间 中 ,训练 误差 是 什么 。 
10. 考虑 Fisher 线性 判别 方法 的 多 类 推广 。 
(a) 编 写 用 多 类 的 Fisher 线性 判别 方法 , 求 最 优 方向 w 的 通用 程序 。 并 对 表格 中 的 三 
维 数据 求 最 优 二 维 分 类 平面 。 | 
(b) 在 这 个 子 空间 中 ,用 圆周 对 称 高 斯 函数 进行 数据 拟 合 。 并 且 在 子 空 间 中 ,用 线性 
分 类 器 求 分 类 界面 。 
(c) 训 练 样本 的 误差 概率 是 多 少 ? 
(d) 对 下 列 数据 进行 分 类 ; (1.40, 一 0.36, 一 0.41)', (0.62, 1.30, 1.11)‘, (— 0.11, 1.60, 
151), 
(e) 为 了 比较 ,使 用 非 最 优 分 类 方向 w= 二 (一 0.5, 一 0.5,1.0)' 重复 (b)(c) 步 又 。 并 且 解 
释 这 两 个 情况 下 的 不 同 。 
3.9 节 
11. 假设 我 们 知道 表格 中 类 别 o 的 10 个 数据 服从 三 维 高 斯 分 布 。 然 而 ,如 果 我 们 丢失 
了 偶数 数据 的 zs 特征 。 
(a) 编 写 程序 ,运用 EM 算法 ,估计 分 布 的 均值 和 协 方差 。 初 始 假设 为 四 一 0, 开 一 
(三 维 单位 矩阵 )。 
(b) 如 果 没 有 丢失 数据 ,重新 估计 分 布 的 均值 和 协 方差 。 比 较 这 两 种 情况 下 的 异同 。 
12. 假设 我 们 知道 表格 中 类 别 w 的 10 个 数据 服从 三 维 均匀 分 布 :p(x|w,)~U (x, ,x )。 
并 且 假 设 我 们 丢失 了 偶数 数据 的 z 特征 。 
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(a) 编 写 程序 ,运用 EM 算法 ,估计 分 布 的 6 个 标量 参数 。 初 始 假设 为 x 二 (一 2, 一 2， 
—2) FI x,=(+2,+2,+2)'. 
(b) 如 果 没 有 丢失 数据 ,重新 佑 计 分 布 的 参数 。 比 较 这 两 种 情况 下 的 腊 同 。 
3. 10 节 
13. 考虑 隐 马 尔 可 夫 模 型 对 序列 进行 分 类 的 问题 。 可 见 状 态 的 符号 共有 4 种 :A,B,C,D。 
训练 2 个 HMM ,每 一 个 都 有 3 个 隐 状 态 ( 再 加 上 空 的 初始 状态 和 空 的 结束 状态 ), 状 
态 之 间 的 转移 是 全 连通 的 。 下 表 为 训练 序列 : 


样 本 w wz 
l AABBCCDD DDCCBBAA 
2 ABBCBBDD DDABCBA 
3 ACBCBCD CDCDCBABA 
4 AD DDBBA 
5 ACBCBABCDD DADACBBAA 
6 BABAADDD CDDCCBA 
7 BABCDCC BDDBCAAAA 
8 ABDBBCCDD BBABBDDDCD 
9 ABAAACDCCD DDADDBCAA 

10 ABD DDCAAA 
(a) 画 出 每 个 模型 的 转移 矩阵 。 


(b) 假 设 这 两 个 模型 具有 相同 的 先 验 概率 ,对 下 面 的 几 个 序列 进行 分 类 :ABBBCDDD， 
DADBCBAA , CDCBABA, ADBBBCD. 


(c) 对 下 面 的 序列 进行 分 类 :BADBDCBA。 然 后 考虑 两 个 模型 具有 怎样 的 先 验 概率 ， 





才能 使 这 个 序列 对 于 每 一 类 的 后 验 概 率 相 同 。 
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非 参数 技术 


在 第 3 章 中 ,我 们 总 是 假设 概率 密度 函数 的 参数 形式 已 知 ,并 在 此 条 件 下 来 处 理 有 监督 学 
习 过 程 。 但 问题 在 于 :对 于 许多 实际 的 模式 识别 的 应 用 场合 ,上 述 假设 条 件 是 否 总 是 成 立 还 是 
一 个 疑问 。 而 在 现实 世界 中 ,真正 令 人 感到 遗憾 的 是 ,我 们 一 般 给 出 的 概率 密度 的 形式 很 少 符 
合 实际 情况 。 特 别 是 ,所 有 的 经 典 的 密度 函数 的 参数 形式 都 是 单 模 的 ,也 就 是 说 ,只 有 单个 局 
部 极 大 值 。 而 在 现实 中 ,所 遇 到 的 却 常 常 是 多 模 的 情况 。 而 且 ,我们 的 关于 高 维 概率 密度 可 以 
表示 成 一 些 一 维 密度 的 乘积 的 假设 通常 也 不 成 立 。 在 这 一 章 中 ,我 们 将 讨论 “ 非 参 数 化 方法 ” 
(non-parametric method) , 它 能 处 理 任意 的 概率 分 布 , 而 不 必 假 设 密度 的 参数 形式 已 知 。 

在 模式 识别 中 ,有 多 种 令 人 感 兴趣 的 非 参数 化 方法 。 其 中 之 一 是 如 何 从 训练 样本 中 估计 
概率 密度 函数 p(x|w)。 如 果 这 种 估计 的 结果 是 可 靠 的 话 ,那么 在 设计 分 类 器 时 , 佑 计 出 的 结 
果 就 可 以 认为 是 真正 的 概率 密度 。 另 一 种 方法 讨论 如 何 直接 估计 后 验 概 率 P(w |x)。 这 种 方 
法 的 实现 方式 与 所 设计 的 算法 直接 相关 ,比如 说 “最 近邻 规则 ”就 省 略 了 概率 估计 这 一 步 ,而 直 
接 进行 判别 函数 的 设计 。 


4.2 概率 密度 的 估计 


很 多 估计 未 知 概率 密度 函数 的 方法 的 核心 思想 都 是 非常 简单 的 ,尽管 关于 收敛 性 的 严格 
证 明 可 能 需要 较 多 技巧 。 最 基本 的 一 个 事实 是 ;个 向 量 x KEK RR PME 


P= | pooax (1) 


R 


因此 ,PP 是 概率 密度 函数 p(x) 的 平滑 了 的 (或 者 取 了 平均 的 ) 版 本 。 因 此 ,我 们 可 以 通过 估计 
概率 P 来 估计 概率 密度 函数 p. Bit n TEE x,,… ,x 都 是 根据 概率 密度 函数 p(x) 独立 同 
分 布 (i.i. d. ) 的 抽取 而 得 到 的 。 显 然 , 其 中 kt 个 样本 落 在 区 域 尺 中 的 概率 服从 二 项 式 定理 ， 


P; = (7) P'(1— Py * (2) 


kW A 

E(k] =nP (3) 
而 且 ,k 的 二 项 式 形式 的 分 布 在 均值 附近 有 非常 显著 的 波峰 。 因 此 ,我 们 可 以 想像 到 比值 /nn 
就 是 概率 PP 的 一 个 很 好 的 估计 。 这 个 估计 当 样 本 个 数 7 非常 大 的 时 候 将 非常 准确 。 如 果 我 
们 假设 p(x) 是 连续 的 ,并 且 区 域 及 足够 小 ,以 至 于 在 这 个 区 间 中 pp 几乎 没有 变化 ,那么 有 


[ox dx x% p(x)V (4) 
R 
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其 中 x 为 一 个 点 ,而 双 则 是 区 域 尽 所 包含 的 体积 。 观 察 公 式 (1),(3),(4) ,我 们 能 够 得 到 户 (x) 
的 估计 为 
p(x) z <= (5) 


如 图 4-1 所 示 。 
相对 概率 


l . 
0.5 
20 
kn 
P=0.7 l 


0 


图 4-1 公式 (4) 的 估计 能 够 产生 一 个 特定 值 的 相对 概率 。 这 里 ,我 们 选择 真正 的 概率 为 0.7。 每 
一 条 曲线 上 都 标记 有 总 共 的 样本 数目 ”并 且 每 一 条 曲线 都 在 纵 轴 上 进行 尺度 调整 ,以 有 相同 的 最 
大 值 。 每 一 条 曲线 的 形式 都 是 二 项 式 , 如 同 公 式 (2) 中 的 一 样 。 对 于 较 大 的 = 值 , 这 样 的 二 项 式 函 
数 在 真正 的 概率 处 形成 显著 的 波峰 。 当 ”ce 时 ,曲线 的 形状 通 近 -- 个 9 函数 ,这 样 我 们 就 能 保证 
估计 结果 就 是 真正 的 概率 


然而 ,还 有 一 些 问题 有 待 讨论 其 中 的 一 些 问 题 是 理论 性 的 , 男 一 些 和 实现 有 关 。 如 果 
我 们 固定 体积 V 的 值 ,并 且 能 够 获得 越 来 越 多 的 训练 样本 ,那么 比值 k/n 将 能 够 如 我 们 所 希望 
的 那样 收 鳅 。 但 即使 这 样 , 所 获得 的 其 实 是 p(x) 的 空间 平滑 后 的 版 本 : 

f p(x’) dx 
R 


v` fdx 6? 
R 





Ra BS p(x) ,而 不 是 平滑 之 后 的 版 本 , 那 我 们 必须 要 求 体积 Y 的 值 趋 近 于 零 。 另 一 
方面 ,如 果 在 固定 样本 的 个 数 ”的 前 提 下 , 令 体积 Y BU FS ,那么 区 域 及 会 变 得 如 此 小 ,以 至 于 
其 中 可 能 不 含有 任何 样本 了 。 也 就 是 说 ,此 时 有 z(Cxs:0, 这 样 的 估计 结果 就 毫 无 意义 了 。 

或 者 如 果 磁 巧 有 1 个 或 2 个 样本 落 在 点 x 处 ,那么 估计 的 结果 就 变 成 无 穷 大 了 ,因此 也 是 
毫 无 意义 的 。 

从 实际 的 观点 说 ,我 们 注意 到 能 够 获得 的 训练 样本 的 个 数 总 是 有 限 的 。 这 样 , 体 积 Y 不 
能 取得 任意 小 。 因 此 ,如 果 我 们 想 使 用 这 种 佑 计 方 法 的 话 , 那 么 就 不 得 不 接受 这 样 的 事实 : 
k/n 总 是 有 一 定 的 变动 的 ,并 且 概 率 密度 函数 p(x) 总 是 存在 着 一 定 程 度 的 平滑 效果 。 

从 理论 的 观点 来 说 ,我 们 要 问 , 如 果 能 够 获得 无 限 多 的 训练 样本 ,那么 以 上 的 这 些 局 限 性 
如 何 能 够 得 到 克服 ? 假设 我 们 使 用 下 面 的 方法 :为 了 估计 点 x 处 的 概率 密度 函数 ,构造 一 系列 
包含 点 x 的 区 域 :RR ,和 Ra，…。 第 一 个 区 域 使 用 1 个 样本 ,第 二 个 区 域 使 用 2 个 样本 ,等 等 。 记 
V, 为 区 域 RR, 的 体积 ,上 为 落 在 区 间 尺 ,中 的 样本 个 数 , 而 p, OO BART POOH n WATT: 

kn/n 


V, (7) 





Pn (X) = 
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如 果 要 求 p,(x) 能 够 收敛 到 p(x) ,那么 下 面 的 3 个 条 件 是 必须 得 到 满足 的 : 

e „im V, =0 

© ,lin, kn = 00 

° im, k,/n=0 

第 一 个 条 件 保证 了 在 区 域 均匀 收缩 和 p(*) 在 点 x 处 连续 的 情况 下 ,空间 平滑 了 的 P/V 能 
够 收敛 到 p(x)。 第 二 个 条 件 只 有 在 p(x) 关 0 时 才 有 意义 ,保证 了 频率 之 比 能 够 收敛 到 概率 
P。 第 三 个 条 件 对 于 保证 公式 (7) 的 收敛 性 显然 是 需要 的 。 这 个 条 件 也 说 明了 虽然 最 后 落 在 
小 区 域 中 的 样本 个 数 非常 大 ,但 这 么 多 样本 在 全 体 样 本 中 所 占 的 比例 仍然 是 非常 小 的 。 

有 两 种 经 常 采用 的 获得 这 种 区 域 序列 的 途径 (图 4-2)。 甚 中 之 一 是 根据 某 一 个 确定 的 体 
积 消 数 , 比 如 V, 二 1/Vn, 来 逐渐 收缩 一 个 给 定 的 初始 区 间 。 这 就 要 求 随机 变量 k, 和 k/n 能 够 
保证 p.(x) 能 收敛 到 p(x)。 这 就 是 将 在 4.3 节 中 讨论 的 “Parzen 窗 方法 ”。 第 二 种 方法 是 确 
FE kn Fin 的 某 个 孙 数 ,比如 ,一 Vn。 这样 ,体积 就 必须 逐渐 生长 ,直到 最 后 能 包含 进 x BY ke 个 

163| 相 邻 点 。 这 就 是 %k- 近 邻 法 ”。 这 两 种 方法 最 终 都 能 够 收敛 ,但 是 却 很 难 预 测 它们 在 有 限 样 本 

情况 下 的 效果 。 


n=4 n=9 


图 4-2 ”估计 某 一 点 处 的 概率 密度 函数 有 两 种 最 基本 的 方法 。 这 里 ,我 们 假设 这 个 点 位 于 图 中 所 示 
的 正方 形 的 中 心 。 第 一 行 表示 的 方法 是 从 一 个 以 目标 样本 点 为 中 心 的 较 大 的 区 域 开始 ,根据 某 个 函 
数 ,例如 VV 二 1/Yn, 逐 渐 的 缩小 区 域 面积 。 第 二 种 方法 如 第 二 行 所 示 。 这 一 方法 缩小 区 域 面 积 的 方 
式 是 依赖 于 样本 点 的 。 例 如 , 令 区 域 必须 包括 ,二 Yn 个 样本 点 。 这 两 种 情况 中 的 序列 都 是 随机 变 
量 ,它们 一 般 会 收敛 ,这 样 就 能 估计 出 测试 样本 点 处 的 真正 的 概率 密度 函数 





4.3 Parzen 窗 方法 


为 了 说 明 估计 概率 密度 函数 的 Parzen 窗 方法 ,我 们 暂时 假设 区 间 尺 ,是 一 个 4 维 的 超 立 方 
体 。 如 果 令 ,表示 超 立 方 体 一 条 边 的 长 度 ,那么 体积 就 是 


Vn = he (8) 
通过 定义 如 下 的 窗 函 数 , 我 们 能 够 解析 地 得 到 落 在 窗 中 的 样本 个 数 k, 的 表达 式 : 
_ ji lu;| < 1/2; j=1,; d 


这 样 ,p(u) 就 表示 一 个 中 心 在 原点 的 单位 超 立方 体 。 这 样 ,如 果 x; 落 在 超 立 方 体 V, 中 ,那么 
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Pp((X 一 X;)/h,) 二 1, 否 则 便 为 0。 因 此 , 超 立 方 体 中 的 样本 个 数 就 是 








X — X; 
b= Do = ) (10) 
代 和 人 公式 (7) ,我 们 得 到 
1] 1 X 一 Xi 
pri) = 7 ( 7, ) (11) 


i=] 
XP Ti #2 EBA T — BP A BE PY FE BY AR a BE DR) TEV 
体 , 而 是 可 以 为 某 种 更 加 一 般 化 的 形式 。 等 式 (11) 表 示 我 们 对 p(x) 的 估计 是 对 一 系列 关于 x 
和 x; 的 函数 作 平均 。 在 本 质 上 ,这 是 一 种 内 插 过 程 即 每 一 个 样本 依据 它 离 x 的 远近 不 同 
而 对 结果 作出 不 同 的 贡献 。 
很 自然 ,人 们 会 问 ,估计 得 到 的 如 (x) 是 否 是 一 个 合理 的 概率 密度 函数 ,也 就 是 说 , 既 要 保 
证 其 值 非 负 , 又 要 保证 积分 的 结果 为 1。 这 一 点 可 以 通过 要 求 PCx) 满 足下 列 性 质 而 得 到 保证 : 
ox) = 0 (12) 





和 
f eau = l (13) 


同时 还 要 求 V, =h., XIE ,我 们 就 能 够 保证 p, (x) 是 一 个 合理 的 概率 密度 函数 ,其 值 非 负 , 积 
分 的 结果 为 1。 
现在 我 们 讨论 窗 的 宽度 h, 对 pp, ON, MRR BHO OME: 


s(x) = —o( > 14 
n =-+(<) (14) 
于 是 可 以 把 p, (x) 重 写 为 
1 it 
Pal) = dale — ¥:) (15) 


AAV, =A Alb h, 显然 会 影响 6,(x) 的 宽度 和 强度 (图 4-3)。 如 果 ,非常 大 ,那么 5 的 强 
度 就 非常 低 , 并 且 即 使 x 距离 x 很 远 时 ,6, (x 一 x;) 和 5,(0) 相 差 也 不 大 。 在 这 种 情况 下 ,p(x) 
Ent EH SEO RANE. AI p(x) 是 对 p(x) 的 非常 平滑 的 ,或 者 称 为 “ 散 焦 ”(out-of- 
focus) 的 估计 。 在 男 一 种 情况 下 ,如 果 h, 很 小 ,那么 6,(x 一 x;) 的 峰值 就 非常 大 。 在 这 种 情况 
下 ,p,(x) 是 个 以 样本 点 为 中 心 的 尖 脉 冲 的 释 加 一 一 也 就 是 一 个 充满 曝 声 的 估计 (图 4-4) 。 
对 于 任意 的 h, ,分 布 是 归 一 化 的 , 即 : 


Jaa-a f Te (==>) dx= | pwdu = (16) 


XF Sh, 趋 近 于 零 时 ,0 (x 一 x;) 趋 近 于 一 个 中 心 在 样本 把 x; KA ERR, p, (x) 是 这 些 
AK Pl TE PR KY EB AN 

显然 ,对 h,( 或 V,) 的 选取 将 在 很 大 程度 上 影响 p, (x)。 如 果 V, 太 大 ,那么 估计 结果 的 分 
REMA. WR V, 太 小 ,那么 估计 绪 果 的 统计 稳定 性 就 不 够 。 在 有 限 样 本 个 数 的 约束 下 ， 
我 们 能 做 的 就 是 取 某 种 可 接受 的 折 中 。 然 而 ,如 果 样 本 个 数 无 限 ,那么 就 可 以 在 增加 时 ,让 
V, 缓慢 的 趋 近 于 零 , 同 时 如 (x) 就 收敛 到 某 个 概率 密度 函数 p(x). 
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h=0..5 





图 4-3 ”二 维 圆周 对 称 正 态 Parzen 窗 的 例子 ,其 中 站 取 3 个 不 同 的 值 。 注 意 ,因为 SCx) 是 经 过 归 
一 化 的 ,因此 这 3 个 图 中 的 纵 坐 标的 尺度 并 不 相同 


ive iE X. 
aae 


aay, 
i, 





图 4-4 ”根据 同样 的 具有 5 个 样本 点 的 样本 集 所 进行 的 Parzen 窗 概率 密度 估计 结果 ,其 中 分 别 使 
用 的 窗 函 数 如 图 4-3 所 示 。 就 像 以 前 一 样 , 纵 轴 经 过 了 尺度 变换 ,以 使 得 各 个 分 布 的 结构 能 够 明 
显 的 互相 比较 


在 讨论 收敛 特性 时 ,必须 注意 我 们 讨论 的 是 一 个 随机 变量 序列 的 收敛 性 ,因为 对 于 固定 的 
x 的 值 ,p, (x) 依 赖 于 样本 xl ,… ,x,。 这 样 ，p, (x) 本 身 就 有 具有 某 种 均值 p, (x) 和 方差 oi (x) ,我 
们 说 p, (x) RA) p(x), RS 


dim Pn(X) = p(X) (17) 
和 
lim o% (x) = 0 (18) 


oT TERA WC ONE , FET et AR A pd) AR pC(u) 和 窗 的 宽度 h, 作 
必要 的 约束 。 通 常 ,要求 pC ) 在 点 x 附近 连续 。 而 条 件 (12),(13) 也 必须 被 满足 。 下 面 ,我 们 
将 证 明 只 要 满足 下 列 条 件 就 能 保证 收敛 : 


sup g (u) < co (19) 
: d 

| Jim ow) | fr = 0 (20) 
lim V, =0 (21) 
lim nv, = co (22) 


N=? OO 


O 这样 的 收敛 称 作 均 方 意义 下 的 收敛 。 一 般 的 概率 理论 的 教材 中 通常 还 会 给 出 其 他 意义 下 的 收敛 的 定义 。 
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条 件 (19) 和 条 件 (20) 保 证 了 2(") 具 有 良好 的 性 态 。 同 时 ,对 于 我 们 所 能 够 想到 的 大 多 数 窗 函 


数 来 说 ,这 两 个 条 件 总 是 能 够 满足 的 。 条 件 (21) 和 条 件 (22) 说 明 体 积 V, 必须 趋向 于 零 , 但 必 
须 以 低 于 1/2 的 速率 。 我 们 现在 将 分 析 为 什么 这 些 条 件 能 够 保证 收敛 性 。 


4.3.1 均值 的 收 伍 性 | 
首先 考虑 p, (x)。 因 为 样本 x, 都 是 未 知 概率 密度 pO 的 独立 同 分 布 的 抽样 得 到 的 ,我 们 有 


Ba (x) = Elpa(x)] 
ocala) 
= | oo) p(v) dv 
= f -Wowa (23) 


这 个 方程 表明 均值 的 期 望 是 未 知 概率 密度 函数 值 的 平均 一 一 对 未 知 概率 密度 函数 和 窗 函数 的 
一 种 卷 积 (关于 卷 积 的 定义 ,参见 附录 中 的 节 A. 4. 11)。 这 样 ,p, (x) 就 是 pO RABE 
的 版 本 。 但 当 V, 趋 近 于 零 时 ,0,(x 一 世 趋 近 于 一 个 中 心 在 x 的 狄 拉克 函数 。 这 样 , 如 果 p E 
点 X 附 近 连 续 , 那 么 条 件 (21) 保 证 了 p, (En 趋 近 于 无 穷 大 时 ,收敛 于 p(x). 
4.3.2 方差 的 收效 性 

表达 式 (23) 表 明 为 了 使 p, (x) 趋 近 于 p(x) ,并 没有 必要 获得 无 限 多 的 训练 样本 。 相 反 ,对 
于 任意 的 ”我 们 可 以 仅仅 让 V, 趋 近 于 零 。 当 然 , 对 于 某 一 个 特定 的 样本 集 , 估 计 得 到 的 充满 
尖峰 的 结果 是 毫 无 意义 的 。 这 个 事实 使 得 我 们 必须 考虑 估计 结果 的 方差 问题 。 因 为 p, (x) 是 
一 些 关 于 统计 独立 的 随机 变量 的 函数 的 和 ,所 以 其 方差 就 是 这 些 分 开 的 项 的 和 ,所 以 我 们 有 


n 1 X 一 X; ] _ 2 
o; (x) = LE (el h, ) 一 130) | 
] X — X; 1 _ 
= nel aya (a) 350 


1 1 /x—Y l 
=z |y h, ) pw) dv — ~ Pa (X) (24) 


去 掉 第 二 项 ,使 用 公式 (23) ,我 们 有 




















o` (x) < sup(P(-)) Pn (x) (25) 
nV 


显然 ,为 了 得 到 较 小 的 方差 ,我 们 必须 要 有 和 较 大 的 V, 值 。 因 为 大 的 V, 能 够 把 概率 密度 函数 
中 的 局 部 变动 都 平滑 掉 。 然 而 ,因为 当 n 赵 近 于 无 穷 大 时 ,分 母 仍 为 有 限 值 ,因此 我 们 能 让 V， 
BATE, RE nV, 趋 近 于 零 ,并 且 仍 旧 得 到 零 方差 。 例 如 ,我 们 能 够 令 V, 二 Vi/Yn 或 者 V, 一 
Vi/1lnn, 等 等 一 一 任何 能 够 满足 条 件 (21) ,(22) 的 函数 。 

这 些 就 是 最 主要 的 一 些 理论 性 结论 。 不 幸 的 是 ,这 些 分 析 并 没有 告诉 我 们 在 有 限 样 本 的 
情 帝 下 ,如何 选 择 p(n) 和 V 以 得 到 较 好 的 估计 。 事 实 上 ,除非 我 们 能 有 更 多 的 关于 p(x) 的 
知识 ,而 不 仅仅 是 它 的 连续 性 ,否则 就 无 法 找到 在 有 限 样本 的 情况 下 最 好 的 方法 。 
4.3.3 举例 说 明 

如 果 讨 论 在 某 些 简单 的 例子 中 ,Parzen 窗 方法 的 表现 情况 ,或 者 特别 地 ,观察 窗 函 数 对 佑 
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计 结 果 的 影响 ,将 是 非常 有 意义 的 事 。 首 先 考虑 当 如 x) 是 零 均值 .单位 方差 . 单 变 量 的 正 态 情 
况 。 我们 固定 窗 旺 数 的 形式 为 


2 
ew /2 





plu) = (26) 


然后 , 令 ha = hi /Vn, 其 中 h 是 可 以 随意 选取 的 一 个 参数 。 这 样 一 来 , p, (x) 就 是 各 个 以 样本 
点 为 中 心 的 正 态 概率 密度 函数 的 从 加: 
pr(x) = i i) (27) 
虽然 根据 公式 (23),(24) 来 解析 的 计算 得 到 p, (zx) 并 不 困难 ,但 是 观察 数值 计算 的 结果 将 
更 有 意义 。 如 果 已 知 某 组 特定 的 样本 集 ,那么 我 们 就 可 以 计算 p, (xz) ,结果 就 得 到 如 图 4-5 所 
示 的 结果 。 这 些 结 果 都 依 束 于 nn 和 hh,。 如 果 n=1, 那 么 p, (xz) 就 是 中 心 在 第 一 个 样本 点 处 的 
一 个 单个 的 高 斯 明 数 ,当然 也 就 无 法 体现 实际 分 布 的 均值 ,也 没有 对 应 的 方差 了 。 如 果 n 二 10， 
hi 二 0.1, 那 么 每 一 个 样本 点 各 自 的 贡献 能 够 清楚 的 观察 到 。 而 如 果 我 们 令 hi 二 0.5 或 hi = 
1.0, 那 么 各 自 的 贡献 就 不 那么 清晰 了 。 当 越 来 越 大 时 ,p, (xz) 克服 变动 的 能 力也 就 得 到 相 
应 的 提高 。 相 应 的 , 当 ?” 较 大 时 ,zz.(z) 对 局 部 采样 的 不 规则 性 更 加 敏感 ,尽管 我 们 知道 当 ?” 趋 
于 无 穷 大 时 ,p, (x) 将 收敛 于 光滑 的 pz) 曲 线 。 昌 然 我 们 不 能 仅 赁 观察 得 到 的 函数 图 像 就 下 
结论 ,但 是 这 些 观 察 结 果 至 少 告诉 我 们 一 个 明显 的 结论 就 是 ,为 了 得 到 精确 的 估计 ,所 需 的 样 
本 个 数 将 非常 多 。 图 4-6 显示 了 在 二 维 情 况 下 的 类 似 的 结果 。 





hy=1 h\=0.5 h1=0.1 

n=1 | | | | 

2 0 2 一 2 0 2 一 2 0 2 
n=10 | | | | | | M | 

一 2 0 2 -2 0 2 一 2 0 2 
n=100 | | | | | | 

-2 0 2 -2 0 2 ~2 0 2 
n= oo | | | | | 

-2 0 2 一 2 0 2 —2 0 2 


图 4-5 ”使 用 不 同 的 窗 宽 度 和 样本 数量 对 一 维 正 态 概 率 密 度 进行 Parzen 窗 估计 的 结果 。 纵 轴 经 
过 了 尺度 变换 ,以 使 得 各 个 分 布 的 结构 能 够 明显 的 互相 比较 。 特 别 注意 , 当 ?=ce 时 ,各 种 估计 的 
结果 都 是 相同 的 (等 于 真实 的 概率 密度 旺 数 ) ,虽然 窗 宽度 不 同 
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第 二 个 一 维 情况 下 的 例子 是 ,我 们 令 Ce) A h, 保持 不 变 , 但 是 让 未 知 的 概率 密度 函数 变 
成 一 个 均匀 分 布 与 一 个 三 角形 分 布 的 混合 分 布 。 图 4-7 显示 了 这 时 的 估计 结果 。 就 像 上 一 个 
例子 一 样 ,n 王 1 时 ,我 们 能 够 得 到 的 更 多 的 是 关于 窗 函 数 的 信息 ,而 不 是 关于 概率 密度 函数 。 
当 ?一 16 时 ,这 些 估计 结果 都 不 令 人 满意 。 但 是 当 n = 256 Ah =l 时 ,我 们 看 到 结果 已 经 开 
始 趋 于 精确 了 。 





图 4-6 使 用 不 同 的 窗 宽度 和 样本 数量 对 二 维 正 态 概率 密度 进行 Parzen 窗 估计 的 结果 。 纵 轴 经 
过 了 尺度 变换 ,以 使 得 各 个 分 布 的 结构 能 够 明显 的 互相 比较 。 特 别 注意 , 当 n= co 时 ,各 种 估计 的 
结果 都 是 相同 的 (等 于 真实 的 概率 密度 函数 ) ,虽然 窗 宽度 不 同 
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图 4-7 ”使 用 不 同 的 窗 宽度 和 样本 数量 对 一 个 混合 概率 密度 函数 进行 Parzen 窗 估计 的 结果 。 特 别 
注意 , 当 * 一 co 时 ,各 种 佑 计 的 结果 都 是 相同 的 (等 于 真实 的 概率 密度 函数 ), 虽 然 窗 宽度 不 同 


4.3.4 分 类 的 例子 

在 基于 Parzen 窗 佑 计 的 分 类 器 中 ,我们 对 每 一 个 类 别 都 独立 的 佑 计 概 率 密度 ,并 且 根据 “最 
大 后 验 概率 ”MAP) 的 原则 进行 分 类 。 如 果 有 多 个 类 别 , 每 个 类 别 的 先 验 概率 都 不 相同 , 那 我 们 
也 能 够 考虑 进 这 个 影响 (习题 4) 。 如 图 4-8 所 示 的 那样 ,Parzen 窗 分 类 器 的 决策 区 域 当 然 是 和 窗 
函数 的 选择 有 关 的 。 

通常 情况 下 ,训练 误差 一 一 也 就 是 训练 样本 的 经 验 误差 一 一 能 够 变 得 任意 小 ,只 要 能 够 使 窗 
的 大 小 足够 小 的 话 ” 。 然 而 ,设计 分 类 器 的 目的 是 能 够 对 新 的 模式 也 进行 有 效 的 分 类 ,所 以 ,一 个 
非常 小 的 训练 误差 并 不 能 保证 测试 误差 同样 的 小 。( 这 方面 的 具体 的 细节 ,将 在 第 9 章 中 深入 讨 
论 ) 。 昌 然 使 用 高 斯 窗 天 数 似乎 有 道理 ,但 是 在 缺乏 概率 分 布 的 其 他 信息 的 情况 下 ,没有 办 法 对 
选择 不 同窗 宽 的 影响 做 出 有 用 的 理论 性 分 析 。 

上 述 的 概率 密度 估计 和 分 类 的 例子 已 经 较 好 的 说 明了 非 参数 方法 的 优点 和 局 限 性 。 非 参数 
方法 的 优点 在 于 通用 性 ,也 就 是 说 ,我 们 事先 根本 不 必 去 了 解 分 布 的 形式 就 能 够 对 它们 作出 估计 
《上 面 的 例子 中 的 高 斯 分 布 和 均匀 -三 角形 混合 分 布 是 非常 不 同 的 两 种 分 布 类 型 ,而 对 它们 进行 
估计 的 方法 却 没有 什么 区 别 )。 如 果 能 采集 足够 多 的 训练 样本 ,无 论 实际 的 概率 密度 函数 的 形式 
如 何 , 我 们 肯定 能 够 最 终 得 到 一 个 可 靠 的 收敛 的 结果 。 在 男 一 方面 ,为 了 得 到 较 精 确 的 结果 , 实 
际 需 要 的 训练 样本 的 个 数 却 是 非常 惊人 的 。 这 时 要 求 的 训练 样本 的 个 数 比 在 知道 分 布 的 参数 形 
式 下 进行 估计 所 需要 的 训练 样本 的 个 数 要 多 得 多 。 至 今 为 止 ,对 于 这 种 非 参 数 估 计 方 法 ,人 们 还 


O 我 们 名 略 同一 特征 向 量 分 配 到 多 种 类 别 的 情况 。 
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没有 找到 有 效 的 能 够 降低 训练 样本 的 个 数 的 方法 。 也 就 是 说 ,这 种 方法 的 时 间 消 耗 和 存储 器 消 
耗 都 是 非常 惊人 的 。 更 糟糕 的 是 ,对 训练 样本 个 数 的 需求 ,相对 特征 空间 的 维 数 呈 指数 增长 。 这 
种 现象 被 称 为 “ 维 数 灾难 ”(curse of dimensionality) ,因此 严重 制约 了 这 种 方法 的 实际 应 用 。 产 生 
“ 维 数 灾难 ”的 最 核心 的 问题 是 ,高 维 函 数 事实 上 远 比 低 维 函数 复杂 ,人 们 对 其 复杂 度 儿 乎 无 法 进 
行 有 效 的 分 析 和 掌握 。 现 在 人 们 都 认为 ,对 付 “ 维 数 灾难 ”的 惟 --- 有 效 的 方法 就 是 就 可 能 多 的 在 
处 理 问 题 时 骨 和 人 关于 模式 数据 本 身 的 可 靠 的 先 验 知识 。 


- -— e 
Pa 
- 





图 4-8 一 个 二 维 Parzen 窗 的 两 类 分 类 器 的 判决 边界 ,其 中 窗 宽度 h 不 相同 。 左 图 中 , 窗 宽度 h 较 
小 ,而 右 图 中 , 窗 宽度 hh 较 大 ,因此 左 图 中 的 分 类 界面 比 右边 要 复杂 。 从 两 个 图 中 .我 们 可 以 直观 地 
看 到 ,对 于 每 个 图 的 上 半 部 分 ,使 用 较 小 的 4 值 比较 合适 ,而 对 于 每 个 图 的 下 半 部 分 ,使 用 较 大 的 
值 比较 合适 ,因此 事实 上 .没有 一 个 理想 的 固定 的 值 能 够 适应 全 部 区 域 的 情况 


4.3.5 ”概率 神经 网 络 

大 多 数 的 模式 识别 方法 都 可 以 用 并 行 处 理 的 方式 实现 .以 空间 复杂 度 来 换取 时 间 复 杂 度 。 
这 种 实现 方法 通常 具有 一 种 人 工 神 经 网 络 的 结构 (我 们 将 在 第 六 章 中 详细 讨论 这 一 主题 ) E 
这 里 ,我 们 将 利用 这 个 机 会 ,来 说 明 Parzen 窗 方法 如 何 可 以 使 用 神经 网 络 的 结构 来 实现 ,也 就 
是 通常 所 说 的 概率 神经 网 络 (probabilistic neural network, PNN) (E 4-9), 假设 我 们 要 实现 
一 个 Parzen 估计 ,共有 nn 个 4 维 的 样本 ,都 是 随机 地 从 “个 类 别 中 选取 的 。 在 这 种 情况 下 , 输 
人 层 由 d 个 输入 单元 组 成 ,每 一 个 输入 单元 都 与 个 模式 单元 相连 。 而 每 一 个 模式 单元 都 与 
“个 类 别 中 的 其 中 之 一 相连 。 从 输入 层 到 模式 层 的 连 线 表 示 可 修改 的 权 系 数 ,这 些 权 系数 都 
可 以 通过 训练 得 到 。 (这些 权重 可 以 用 一 个 参数 向 量 8 来 表示 ,但 在 这 里 ,为 了 与 神经 网 络 领 
域 的 术语 保持 一 致 ,我 们 改 用 向 量 w 来 表示 )。 而 每 一 个 类 别 单元 都 计算 与 之 相连 的 各 模式 
单元 的 输出 结果 的 和 。 

PNN 网 络 是 用 下 面 的 方式 进行 训练 的 。 首 先 , 训 练 样本 集中 的 每 一 个 样本 x 都 被 归 一 化 
为 单位 长 度 ,也 就 是 说 >》)” cf = 1 。 第 一 个 经 过 归 一 化 了 的 样本 被 置 于 输入 层 单元 上 。 同 
时 ,连接 输入 单元 和 第 一 个 模式 层 单元 的 那些 连接 被 初始 化 为 w =x, (注意 ,因为 此 时 x, 是 归 
一 化 了 的 ,因此 这 时 的 w 也 是 归 一 化 了 的 )。 然 后 ,从 模式 层 的 第 一 个 单元 到 类 别 层 中 代表 
x: 所 属 类 别 的 那个 单元 之 间 就 建立 了 一 个 连接 。 同 样 的 过 程 对 剩 下 的 各 个 模式 单元 都 重复 
进行 , 即 wk 一 xk ,其 中 k 二 1,2,…,n。 在 这 样 的 操作 之 后 ,我 们 就 得 到 了 这 样 的 一 个 网 络 : 输 
入 层 单 元 与 模式 层 单元 之 间 是 完全 连通 的 ,而 模式 层 单元 到 类 别 单元 之 间 是 稀 朴 连接 的 。 如 
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果 我 们 把 第 j 个 样本 的 第 k 个 分 量 记 为 zj; ,把 这 个 分 量 到 第 7 个 模式 层 单元 的 连接 权重 系数 
记 为 wi ;其 中 j==1,2,…,n,k 二 1,2,…,d。 那 我 们 就 有 如 下 的 算法 : 


算法 1 (PNN 训练 算法 ) 





1 begin initialize 7 << Onaj QO, 7 一 ]】，……)77; 1=]l,*,c 
2 do j < j+1 
d 1/2 
3 ra za/ ( Dz) ( 归 一 化 过 程 ) 
4 Wi SX Liz (训练 ) 
5 if XE w; then a;l 
6 until ; =n 
‘ end 





输入 层 


图 4-9 一 个 概率 神经 网 络 (PNN 网 络 ) 的 结构 。 其 中 有 4 个 输入 层 单元 ,个 模式 层 单元 ,ec 个 类 
别 层 单元 。 每 一 个 模式 层 单元 能 够 对 它 的 权重 向 量 和 归 一 化 的 样本 回 量 x 作 内 积 ,得 到 cw x, 
然后 映射 为 exp[L(z 一 1)/o]。 每 一 个 类 别 单元 把 与 它 相 连 的 模式 层 单元 的 输出 结果 相 加 。 这 样 
的 结果 ,就 保证 了 类 别 单 元 处 得 到 的 就 是 使 用 协 方差 为 ol 的 圆周 对 称 高 斯 窗 函 数 的 Parzen 窗 的 
估计 结果 。 其 中 1 为 dq X zz 的 单位 矩阵 


然后 ,经 过 训练 完成 的 网 络 就 可 以 用 这 样 的 方式 实现 分 类 ;首先 把 一 个 归 一 化 了 的 测试 样本 x 

提供 给 输入 节点 ,每 一 个 模式 层 单元 都 计算 内 积 , 得 到 “ 净 激活 ”(net activation) ,有 时 简称 为 净 (net) 

= netk = W,X (28) 
并 产生 net, 的 一 个 非 线性 函数 。 每 一 个 类 别 层 单元 则 把 与 它 相 连接 的 模式 层 单元 的 结果 进行 相 加 。 
非 线性 函数 为 em- ,其 中 o 是 由 用 户 设置 的 一 个 参数 ,表示 有 效 的 高 斯 窗 的 宽度 。 为 了 实现 
Parzen 窗 算法 ,这 里 的 激活 函数 (或 被 称 为 转移 函数 ) 必 须 是 一 个 指数 函数 。 为 了 说 明 这 一 点 ,考虑 
中 心 在 某 一 个 训练 样本 w 处 的 未 经 归 一 化 的 高 斯 窗 函 数 。 我 们 从 期 望 得 到 的 高 斯 函数 倒 推出 模式 
层 应 采用 的 非 线 性 活化 函数 的 形式 。 也 就 是 说 ,如 果 我 们 令 有 效 宽度 h 为 常数 ,那么 窗 函 数 为 

期 望 的 高 斯 函数 


y (* ; =) o e- (=w) KW )/207 


n 





(29) 


t t 2 2 
— eT X+tW, Wh —2X wy)/2a* _ e”etk—1)/0 
Vam, a 


激活 函数 
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其 中 使 用 了 归 一 化 条 件 ;xx=w wp 二 1。 这 样 ,每 一 个 模式 层 单元 向 与 它 相 联接 的 那个 类 别 


层 单元 就 贡献 了 一 个 信号 ,这 个 信号 的 强度 等 于 以 当前 训练 样本 为 中 心 的 高 斯 函数 产生 这 个 
测试 样本 点 的 概率 。 对 这 些 局 部 估计 值 求 和 就 得 到 判别 函数 g;(x) 一 一 也 就 是 概率 密度 函数 
的 Parzen 窗 估 计 结 果 。 通过 maxgi(x) 运 算得 到 测试 点 的 期 望 的 类 别 ( 算 法 2) 。 


算法 2 (PNN 分 类 算法 ) 
1 begin initialize k < 0,x — Wit 
2 do k — k+1 





3 net, — W, X 

4 if a =l then g;< gi +expl Cnet, —1)/o | 
5 until k=n 

6 return class <~ arg max g; (x) 

7 


end 


PNN 的 好 处 之 一 是 其 学 习 速 度 很 快 , 因 为 学 习 规 则 简单 (w: =x,) ,并 且 每 一 个 样本 点 只 
需要 提供 一 遍 。 此 算法 的 空间 复杂 度 也 很 容易 求 得 一 一 只 要 数 一 下 图 4-9 中 的 连接 个 数 就 行 
了 一 一 结果 是 O((n 十 1)d)。 这 个 存储 空间 要 求 在 硬件 实现 时 是 比较 高 的 ,特别 是 当 n 和 4d 都 
比较 大 时 。 如 果 用 图 4-9 的 并 行 机 制 实现 算法 ,那么 时 间 复 杂 度 为 O(1), 因 为 公式 (28) 中 的 
内 积 都 可 以 用 并 行 的 方式 来 完成 。 所 以 ,这 种 PNN 算法 最 有 用 处 的 场合 是 ,计算 速度 要 求 很 
高 ,存储 器 资源 又 比较 容易 满足 的 情况 。 此 算法 的 另 一 个 优点 是 新 的 训练 样本 很 容易 被 加 入 
以 前 训练 好 的 分 类 器 中 ,这 一 特性 对 于 “在 线 ” 的 应 用 特别 有 意义 。 

43.6 窗 函 数 的 选取 

如 同 我 们 已 经 看 到 的 那样 Parzen 窗 /PNN 算法 中 的 一 个 关键 问题 就 是 如 何 选取 体积 序 
A) Vi Vst Vn 的 问题 。 比 如 ,如 果 我 们 选取 V, 二 Vi/Yn, 那 么 对 于 有 限 的 ”估计 结果 将 对 
初始 体积 Vi 非常 敏感 。 如 果 V 非常 小 ,那么 大 多 数 的 体积 内 都 将 是 空 的 ,估计 的 p, (zx) 将 是 
误差 的 。 如 果 Vi 非常 大 ,那么 平滑 效应 会 很 剧烈 ,以 至 于 概率 密度 的 空间 变化 都 被 掩盖 了 。 
而 且 , 很 有 可 能 对 于 某 一 个 区 域 适 合 的 体积 对 于 另 一 个 区 域 就 非常 不 适合 (参见 图 4-8)。 在 
第 9 章 中 ,我 们 将 考虑 更 一 般 化 的 方法 ,包括 交叉 验证 方法 ,这 是 一 个 通常 和 Parzen 窗 一 起 使 
用 的 算法 。 简 单 地 说 ,“ 交 又 验证 方法 "使 用 数据 集中 的 一 小 部 分 来 形成 一 个 “验证 集 ”, 而 窗 的 
宽度 就 通过 使 验证 集 上 的 误差 率 最 小 来 调节 得 到 的 。 


4.4 Kk,- 近 邻 估计 


由 于 最 佳 的 窗 函 数 的 选择 总 是 一 个 问题 ,一 种 可 行 的 解决 方法 就 是 让 体积 成 为 训练 样本 
的 防 数 ,而 不 是 硬性 地 规定 窗 蚂 数 为 全 体 样本 个 数 的 某 个 阻 数 。 例 如 ,为 了 从 2 个 训练 样本 
(archetype, 在 以 后 也 称 为 “原型 样本 ”, 或 直接 称 为 “原型 >) 中 估计 p(x) ,我 们 能 够 以 点 X 为 中 
心 , 让 体积 扩张 ,直到 包含 进 k; 个 样本 为 止 ,其 中 的 k, 是 关于 7 的 某 一 个 特定 函数 。 这 些 样 本 
就 被 称 为 点 x Bk. 个 最 近邻 。 如 果 在 点 x 附近 的 概率 密度 很 大 ,那么 这 个 体积 就 相对 比较 
小 。 而 如 果 在 点 x 附近 的 概率 密度 比较 小 ,那么 这 个 体积 就 会 比较 大 ,但 是 一 旦 它 进 入 菜 个 概 
率 密 度 很 高 的 区 域 ,这 个 体积 的 生长 就 会 停止 。 无 论 在 那 种 情况 下 ,如 果 我 们 令 
k,/n 
Vy 


Dn(X) 一 (30) 


144 se #4 


我 们 希望 当 n 趋 近 于 无 穷 时 ,k, 也 能 够 趋 近 于 无 穷 。 这 样 的 假设 能 够 保证 k,/n 就 是 对 一 个 


点 落 入 区 域 V, 中 的 概率 的 准确 的 估计 。 然 而 ,我 们 还 希望 心 的 增加 能 够 足够 慢 , 使 得 为 了 包 
Sit kn 个 样本 的 体积 能 够 逐渐 的 趋 于 零 。 这 样 , 从 等 式 (30) 能 很 明显 看 出 比值 /nz 将 趋 于 
零 。 昌 然 在 这 里 我 们 不 给 出 证 明 , 但 下 面 的 结论 是 正确 的 :如 果 p(x) 在 所 有 的 点 都 连续 ,那么 
AF liM, o kr =F liM, kr/n 二 0 是 p, (XxX) 收敛 到 p(x) 的 充 要 条 件 ( 请 参见 习题 5) 。 如 果 
W ka =n, F HBI p, (x) 是 p(x) 的 一 个 较 准 确 的 估计 ,那么 根据 方程 (30), 我 们 看 到 
V, 守 1/ (Ynp (x))。 这 样 ,V，, 又 一 次 等 于 Vi/Yn 了 。 但 是 这 里 的 初始 体积 V 是 根据 样本 数据 
的 具体 情况 而 确定 的 ,而 不 是 硬性 选取 的 。 一 个 值得 注意 的 情况 是 ,虽然 p, (x) 是 连续 的 ,其 
梯度 却 不 一 定 连 续 。 而 且 , 不 连续 梯度 处 的 点 和 原型 数据 点 几乎 都 是 不 同 的 (图 4-10 和 图 4- 
TT. 


图 4-10 MkK=3 MON MBB eH pea) 
近邻 估计 结果 。 注 意 , 这 时 候 n 为 有 限 值 ,估计 出 的 斜 
率 也 是 不 连续 的 ,同时 注意 不 连续 性 通常 发 生 在 离开 
样本 点 的 位 置 上 





图 4-11 利用 k=5 的 人 -近邻 法 估计 的 二 维 概率 密 
度 。 注 意 到 用 有 限 的 个 样本 估计 出 的 密度 相当 “ 崎 
贱 ” ,存在 斜率 上 的 不 连续 处 ,而 且 不 连续 处 通常 并 不 
出 现在 样本 点 处 





4.4.1 kK,- 近 邻 估计 和 Parzen 窗 居 计 
GAR kB A Parzen 窗 估计 的 效果 做 一 个 比较 将 是 很 有 意义 的 。 我 们 使 用 前 几 
个 例子 。 当 n=1 Mk, =JVn=1 时 ,估计 结果 为 


] 
PaO) = Fm (31) 


这 显然 是 对 p(x) 的 非常 差 的 佰 计 , 因 为 其 积分 将 为 无 穷 大 。 如 图 4-12 所 示 , 当 n 增 大 的 时 
候 , 估 计 结 果 就 显著 提高 了 。 虽 然 积 分 仍然 为 无 穷 大 , 当 男 一 方面 , p, (zx) 永远 不 会 变 到 零 。 
这 个 结果 对 于 高 维 空间 的 情况 是 非常 有 价值 的 。 
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像 Parzen 窗 方法 一 样 ,我 们 令 心 = ki Yn, 选择 不 同 的 ki 值 , 就 能 够 得 到 一 组 估计 。 然 而 ， 
在 没有 更 多 的 信息 的 情况 下 ,并 没有 特别 好 的 值 。 同 时 我 们 能 确信 的 一 点 也 只 是 : 当 训 练 
样本 为 无 穷 时 ,估计 结果 将 是 正确 的 。 为 了 进行 分 类 ,一 个 常用 的 方法 是 调整 窗 的 宽度 ,下 到 
分 类 器 对 另 一 组 不 同 的 样本 集 ( 仍 然 服 从 同一 个 分 布 ) 有 最 小 的 误差 率 。 我 们 将 在 第 9 章 中 进 
一 步 讨 论 这 种 技术 。 
4.4.2 后 验 概率 的 估计 

前 面 几 节 中 的 讨论 结果 能 够 用 于 从 已 标记 的 样本 集中 估计 后 验 概 率 P(w:|x)。 假 设 我 们 
把 一 个 体积 放 在 点 x 周围 ,并 且 能 够 包含 进 k 个 样本 ,其 中 的 k; 个 属于 类 别 w;。 那 么 ,对 于 联 
合 概率 密度 的 估计 显然 就 是 


pn(X, wi) = a (32) 
这 样 , 对 后 验 概率 的 估计 就 是 
/ pn(X, COi ) k; 


P,,(@; |X) 一 一 一- -~ 一 


Si Prw) k (33) 





0 1 2 3 4 0 i 2 3 4 
l 1 

n=16 

大 =4 
0 1 2 3 4 0 i 2 3 4 
l: L 

n=256 

加 LANIN 
0 1 2 3 4 0 1 2 3 4 


= o 3 
“i Il 
g 8 


图 4-12 ”对 两 个 一 维 概 率 密度 的 一 些 k,- 近 邻 估计 ,一 个 为 高 斯 钞 数 , 另 一 个 为 三 角形 分 布 。 注 
意 当 ” 值 为 有 限时 ,估计 结果 显得 非常 “粗糙 >? 和 * 崎 眠 不 平 ” 


也 就 是 说 ,点 x 属 于 类 别 w 的 后 验 概 率 就 是 体积 中 标记 为 w 的 样本 点 的 个 数 与 体积 中 全 部 
样本 点 的 个 数 的 比值 。 这 样 ,为 了 达到 最 小 的 误差 率 , 我 们 就 选择 使 这 个 比值 最 大 的 那个 类 别 
作为 判决 结果 。 如 果 有 足够 多 的 样本 点 ,并 且 体 积 足 够 小 ,那么 能 够 证 明 ,这 样 的 方法 的 结 采 
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就 是 比较 准确 的 。 

关于 如 何 选择 体积 的 大 小 问题 ,显然 我 们 既 可 以 使 用 窗 方法 ,也 可 以 使 用 上 -近邻 方法 。 
在 Parzen 窗 方 法 中 ,V, 必须 是 关于 的 某 个 固定 形式 的 函数 ,比如 V,=1/Va。 在 心 最 近邻 
方法 中 ,V, 必须 保证 能 包含 进 足 够 的 样本 个 数 , 比 如 k= 二 Vn。 在 这 两 种 方法 中 ,如 果 n 能 够 趋 
四 无 穷 大 ,那么 在 无 限 小 的 体积 中 就 能 有 无 穷 多 的 样本 。 这 样 ,估计 将 能 够 达到 非常 高 的 准确 
度 。 有 意思 的 是 ,下 面 将 看 到 ,即使 我 们 只 依赖 某 个 x 的 单一 的 最 近邻 来 作 估计 ,也 能 够 达到 
足够 好 的 性 能 。 


4.5 最 近邻 规则 


SD =(xi ,XxX,} ,其 中 每 一 个 样本 x 所 属 的 类 别 均 已 知 ( 已 标记 )。 对 于 测试 样本 点 x， 
在 集合 D* 中 距离 它 最 近 的 点 记 为 x 。 那 么 ,“ 最 近邻 规则 ”的 分 类 方法 就 是 把 点 x 分 为 x 所属 
的 类 别 。 最 近邻 规则 是 次 优 的 方法 ,通常 的 误差 率 比 最 小 可 能 误差 率 ( 即 贝 叶 斯 误差 率 ) 要 大 ， 
然而 ,我 们 将 会 看 到 ,在 无 限 训练 样本 的 情况 下 ,这 个 误差 率 至 多 不 会 超过 贝 叶 斯 误差 率 的 两 
TE o 

在 深入 讨论 具体 细节 之 前 ,我 们 首先 将 得 到 一 些 为 什么 最 近邻 规则 也 能 够 很 好 地 工作 的 感 
性 理解 。 首 先 ,注意 赋予 最 近邻 点 的 标记 9 是 一 个 随机 变量 。9 =w, 的 概率 无 非 就 是 后 验 概率 
Plw | x )。 当 样本 个 数 非常 大 的 时 候 , 有 理由 认为 x 距离 x 足够 近 ,使 得 P(w |x) ~ Po, |x), 因 
为 这 就 恰好 是 状态 位 于 o: 的 概率 ,因此 最 近邻 规则 自然 是 真实 概率 的 一 个 有 效 的 近似 。 

如 果 我 们 定义 On OH 


P(@_ |X) = max P (a; |x) (34) 


那么 , 贝 叶 斯 规则 总 是 选取 w。 作为 分 类 结果 。 这 个 规则 允许 我 们 把 特征 空间 分 成 一 个 个 的 
网 格 单元 (cell) 。 每 一 个 单元 中 的 点 ,到 最 近邻 x' 的 距离 都 比 到 别 的 样本 点 的 距离 要 大 。 因 
此 ,这 个 小 单元 中 的 任意 点 的 类 别 就 与 最 近邻 x! 的 类 别 相 同一 这 称 为 空间 Voronoi 网 格 (请 
参见 图 4-13), 

当 Plon |x) RAGE F 1 时 ,最 近邻 规则 与 贝 叶 斯 分 类 规则 几乎 相同 。 也 就 是 说 , 当 最 小 误 
差 率 很 小 时 ,最 近邻 规则 的 分 类 误差 率 也 非常 小 。 当 Plon |x) ASF 1/c 时 (也 就 是 说 ,每 个 
类 都 几乎 等 概率 ) ,根据 贝 叶 斯 规则 的 分 类 结果 和 根据 最 近邻 规则 的 分 类 结果 相差 就 比较 大 
了 ,但 是 两 者 的 误差 率 都 几乎 是 1 一 1/c。 虽 然 需 要 更 详细 严谨 的 理论 分 析 , 但 这 些 粗 略 的 感 
性 的 观测 结果 使 我 们 认识 到 最 近邻 规则 有 比较 好 的 结果 并 不 是 偶然 的 。 

我 们 对 于 最 近邻 规则 的 效果 的 分 析 是 通过 求 无 限 样本 下 的 平均 条 件 误差 率 P(e| x) 而 进 
行 的 ,其 中 的 取 平 均 是 针对 训练 样本 进行 的 。 无 条 件 的 平均 误差 率 可 以 通过 对 平均 条 件 误差 
率 在 x 的 定义 域内 进行 积分 获得 : 





P(e) = | Pepe ax (35) 


我 们 回忆 起 贝 叶 斯 决策 规则 是 通过 对 每 一 个 点 x 都 使 误差 率 最 小 来 最 小 化 总 体 误差 率 的 。 
丰 第 2 章 中 ,如 果 让 P* (elx) 表 示 P(ejlx) 的 最 小 可 能 值 ,P* 表示 P(e) 的 最 小 可 能 值 ,那么 有 
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各 4-13 在 二 维 的 情况 下 ,最 近邻 规则 算法 使 得 二 维 空 间 被 分 割 成 了 许多 Voronoi 
网 格 ,每 一 个 网 格 代表 的 类 别 就 是 它 所 包含 的 训练 样本 点 所 属 的 类 别 。 在 三 维 情况 
下 ,这 些 网 格 也 都 变 成 了 三 维 的 ,而 判决 界面 看 起 来 就 像 是 晶体 结 梅 的 表面 一 样 


P*(e|x) = 1 — P(wm|x) (36) 


pr = f Prelx pc dx (37) 


4.5.1 最 近邻 规则 的 收敛 性 
我 们 现在 希望 评价 最 近邻 规则 的 平均 误差 率 。 特 别 是 , 当 P, (e) 是 nn 个 样本 时 的 误差 率 ， 
并 且 





P = lim Pe (38) 
那么 ,我们 和 希望 证 明 
4 * C * 
P* <P <P (2- < r") (39) 


首先 ,我 们 注意 到 如 果 对 某 一 组 特定 的 样本 集 使 用 最 近邻 规则 ,那么 结果 的 误差 率 是 和 这 
组 样本 的 目 身 的 特点 有 关 的 。 特 别 地 ,如 果 使 用 一 个 包含 不 同 的 2 个 样本 的 样本 集 来 对 某 个 
测试 点 x 进行 分 类 ,那么 对 于 x, 将 有 不 同 的 最 近邻 向 量 x 。 因 为 判定 规则 依赖 于 这 个 最 近邻 
向 量 x 所 属 的 类 别 ,因此 我 们 有 条 件 误差 率 P(elx,x'), 这 个 条 件 误差 率 PCe| x,x') 同 时 依赖 
于 测试 点 x 和 最 近邻 向 量 x 。 通 过 对 x 取 平 均 ,我 们 得 到 


P(e) = | Peel, x’) p(x’ |x) dx’ (40) 


通常 ,得 到 条 件 概率 密度 函数 p(x |x) 是 非常 困难 的 。 然 而 ,由 于 根据 定义 ,向 量 x' 为 测 
试点 x 的 最 近邻 向 量 , 因 此 我 们 可 以 想像 到 , 这 个 概率 密度 函数 将 在 x 周 围 有 非常 显著 的 尖 
峰 , 而 在 其 他 地 方 ,其 值 应 该 非常 小 。 而 且 , 当 趋 于 无 穷 大 时 ,我 们 希望 p(x’|x) 趋 近 于 以 x 
为 中 心 的 一 个 狄 拉克 函数 ,这 样 就 使 得 方程 (40) 的 求 值 非常 容易 了 。 为 了 证 明 事 实 上 确实 是 
这 种 情况 ,我们 必须 假设 在 给 定 的 x 点 ,p(*) 是 连续 的 ,并 且 其 值 非 零 。 在 这 样 的 假设 条 件 下 ， 
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任何 样本 落 在 以 x 为 中 心 的 超 球 体 S 中 的 概率 为 : 


P,= | p(x) dx 
J CD 
这 样 ,所 有 的 n 个 独立 抽取 的 样本 都 落 在 球体 之 外 的 概率 为 (1 一 Ps)*。 这 个 概率 当 n 趋 近 于 
无 穷 大 时 就 趋 近 于 零 。 这 样 ,就 如 我 们 所 希望 的 那样 , 当 x ' 依 概率 收 伍 于 X 时 ,px |x) 趋 近 于 
狄 拉克 晴 数 。 事 实 上 ,如 果 使 用 “测度 理论 ”的 方法 ,还 可 以 得 到 x 收敛 到 x 的 更 强 ( 同 时 在 也 
更 具 理 论 基 础 ?的 结论 ,不 过 ,上 述 结果 本 身 对 于 我 们 的 目的 来 说 已 经 是 足够 了 。 
4.5.2 最 近邻 规则 的 误差 率 
现在 我 们 转 而 注意 条 件 误差 率 P, Clx xX ) 的 计算 问题 。 为 了 避免 混淆 ,我 们 必须 比 以 前 
更 加 清晰 和 仔细 地 描述 问题 。 比 如 ,为 了 明确 地 表明 当 样 本 点 的 个 数 n 增加 时 ,x 的 最 近邻 
点 ,Xx ,可 能 会 变化 ,我 们 把 它 记 为 x ,。 当 我 们 说 及 个 独立 抽取 的 样本 点 时 ,实际 上 是 表示 
有 7 个 随机 变量 对 ; x0) ,xz A) (x, ,0,) ,其 中 0, 为 c 种 可 能 的 自然 状态 Wy p Wy tt y W, 
中 的 任意 一 种 。 我 们 假设 这 些 随机 变量 对 是 这 样 产生 的 :首先 以 概率 Po ER 0 对 应 wj， 
然后 在 这 个 基础 上 ,以 概率 密度 p(x|w,) 选 取样 本 x。 而 每 一 个 随机 变量 对 都 是 独立 抽取 的 。 
假设 在 分 类 过 程 中 ,测试 样本 为 (x,0) ,并 且 假 设 被 标记 为 0, 的 x“, 是 测试 样本 x 的 最 近邻 向 
量 。 因 为 抽取 x, 时 的 自然 状态 和 抽取 x 时 的 自然 状态 是 独立 的 ,因此 ,我 们 有 
P(0,0’|x, x.) = P(@{x) P (0’ |x’) (42) 
现在 ,如 果 使 用 最 近邻 规则 ,那么 每 当 9 关 8, 时 ,就 产生 一 次 分 类 误差 。 这样 ,条 件 误差 率 
P,(e|x,X',) 为 


P,(e|x, X,) = 1 — D> P0 = w, 0) = aX, x4) 


1 一 1 


= 1 — )_ P(a;|x)P(a;|x,,) 
2 uD 


为 了 得 到 P.(e) ,我 们 必须 把 这 个 表达 式 代 入 式 (40) ,然后 对 x 的 范围 求 平均 。 通 常 ,这 
是 非常 困难 的 。 但 是 由 于 前 面 已 经 说 过 , 当 n 趋 近 于 无 穷 大 时 ,p(x', | Xx) 逼近 狄 拉克 函数 , 因 
此 问题 就 非常 容易 了 。 如 果 Plw;|x) 在 x 处 连续 ,那么 ,我 们 得 到 


im P,,(e|x) = f E 一 2, P (cox) P (orl) |5(%, — x) dx, 


=1- oP (wi |x) 


这 样 ,只 要 交换 一 下 极限 和 积分 的 操作 次 序 ,渐进 最 近邻 误差 率 就 是 
P= im P(e) 


(44) 


= tim, f Piep dx 


J |: — 3 P?) |p dx (45) 
i=l 
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4.5.3 RER 

虽然 公式 (45) 给 出 了 精确 计算 条 件 误 差 率 的 方法 ,但 有 时 候 , 如 果 能 够 得 到 用 贝 叶 斯 误差 
率 P* 表示 的 误差 界 已 ,那么 将 更 能 说 明 问 题 。 显 然 ,P 的 下 界 为 P* 本 身 。 而 且 可 以 证 明 , 对 
于 任意 的 P* ,都 存在 着 某 一 组 特定 的 条 件 概 率 和 先 验 概率 ,使 得 这 个 误差 边界 能 够 达到 , 因 
此 ,这 是 一 个 紧 致 的 下 界 。 

寻找 误差 上 界 则 是 一 件 更 有 趣 的 事 。 希 望 误差 上 界 小 的 原因 是 来 自 于 这 样 的 观察 :如 果 
贝 叶 斯 误差 率 小 ,那么 对 于 某 一 些 i( 比 如 i1=m) ,Plw,|x) 接 近 于 1.0。 这 样 ,等 式 (45) 中 被 积 
分 的 部 分 就 能 够 简化 为 1 P (Co, |x) +201 — Po, |x)), 而 且 , 由 于 

P*(e|x) = 1 — P(a@,,|x) (46) 

对 x 进行 积分 ,产生 的 结果 大 约 是 贝 叶 斯 误差 率 的 两 倍 。 因 此 这 个 结果 仍然 是 低 的 ,对 于 某 些 
应 用 来 说 就 已 经 足够 了 。 为 了 得 到 精确 的 误差 上 界 ,我 们 必须 找到 在 给 定 贝 叶 斯 误差 率 P* 
时 ,最 近邻 误差 率 PP 将 是 多 少 。 这 样 ,方程 (45) 使 得 我 们 必须 寻找 在 给 定 Plo, | x) 条 件 下 ， 


下 ,Pr Co |x) 能 够 达到 多 么 小 。 首 先 ,我 们 有 


2 P (wilx) = P?(omix) +) Pol) (47) 
i=] ism 


然后 通过 使 第 二 项 最 小 化 ， 导 找 这 个 表达 式 的 界 ， 而 约束 条 件 为 
e P(w |x) 20 
oe Plw|x) = 1— Plon |x) = P* (e|x) 
我 们 很 容易 猜测 到 如 果 除 了 第 m 个 之 外 ,其 他 后 验 概率 都 相等 时 ，>,，_ P Cw, |x) 达到 最 小 
值 。 根 据 第 二 个 约束 条 件 , 有 | 


PD jam 
Plwilx)=1 C71 (48) 
1 — P*(e|x) i=m 
这 样 ,有 不 等 式 
Y ProD > (1 Pele)? + PE (49) 
i=! 
和 
1 — YP?(wilx) < 2P*(elx) — —— P*(elx) (50) 


i=l 
这 些 表 达 式 立刻 证 明了 P<2P* ,因为 我 们 可 以 把 这 个 结果 代入 式 (45) 中 ,并 且 去 掉 第 二 
项 。 然 而 ,一 个 更 加 紧 致 的 上 界 可 以 用 这 样 的 方法 来 获得 ,注意 到 方差 为 : 


Var[ P*(e|x)] = [vere — P*}’ p(x) dx 
= J P*?(e|x) p(x) dx — P? > 0 181 
因此 有 


J Pemp dx > P” (51) 
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等 式 当 且 仅 当 方差 P* (e|x) 二 0 时 成 立 。 利 用 这 个 结果 ,并 且 用 公式 (50) 代 入 公式 (45) ,我 们 
能 够 得 到 无 限 样本 个 数 时 的 最 近邻 规则 的 误差 率 P: 
* * C 水 
P* < P < P*(2— —_P*) (52) 
容易 证 明 , 在 “ 零 信 息 ” 情 况 下 (也 即 概率 密度 函数 p(x|w) 均 相等 ,所 以 Pal x)= 
P(w;), 同 时 P* (e|x) 不 依赖 于 x) ,误差 率 的 上 界 能 够 取 到 (习题 17)。 因 此 ,公式 (52) 给 出 的 


误差 上 界 是 足够 紧 致 的 。 特 别 地 , 贝 叶 斯 误差 率 可 以 位 于 0 到 < 之 间 的 任意 位 置 ,并 且 当 概 


C 
率 取 两 个 极端 情况 时 ,上 下 界 能 够 重合 。 当 贝 叶 斯 误差 率 非常 小 时 ,最 近邻 规则 的 误差 率 约 等 
于 贝 叶 斯 误差 率 的 两 倍 ( 图 4-14) 。 
图 4-14 图 中 表示 了 在 cc 类别 无 限 训 练 样本 的 问题 中 ,最 近邻 规则 ik 
的 误差 率 P 的 边界 。 其 中 的 P 为 贝 叶 斯 误差 率 ( 公 式 (52))。 在 误 
差 率 较 小 时 ,最 近邻 规则 的 误差 率 已 小 于 两 倍 的 已” 









ro 


< Ay Si 8 OK) ii] HE 
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申 于 卫 总 是 小 于 等 于 2P” ,因此 如 果 我 们 能 够 得 到 无 限 多 的 训练 样本 和 使 用 任意 复杂 的 分 类 
规则 ,我 们 至 多 只 能 使 误差 率 降低 一 半 。 也 就 是 说 ,分 类 信息 中 的 一 半 信 息 是 由 最 近邻 点 提供 的 。 
大 们 很 自然 会 问 ,在 有 限 梓 本 的 情况 下 ,最 近邻 规则 的 效果 又 是 如 何 , 并 且 分 类 器 收敛 到 
渐 近 值 的 速度 又 是 如 何 。 不 圣 的 是 ,虽然 人 们 已 经 做 出 了 种 种 努力 来 寻求 答案 ,但 是 现在 能 够 
得 到 的 对 于 通 第 情况 下 的 绪论 是 不 佳 的 。 很 容易 说 明 , 这 时 的 收敛 速度 可 能 会 任意 的 慢 , 同 时 
P,(e) 未 必 会 随 着 n 的 增加 而 单调 递减 。 与 其 他 的 非 参 数 化 方法 一 样 , 如果 没有 关于 概率 分 布 
结构 的 其 他 知识 的 话 ,就 很 难 再 分 析出 什么 有 用 的 结论 来 了 。 
4.5.4 k- 近 邻 规则 
最 近邻 规则 的 一 个 推广 就 是 -近邻 规则 ”。 就 像 我 们 从 这 个 规则 的 名 称 本 身 所 能 期 望 的 那 
样 , 这 个 规则 将 一 个 测试 数据 点 x 分 类 为 与 它 最 接近 的 xk 个 近邻 中 出 现 最 多 的 那个 类 别 ( 图 4-15)。 
图 4-15 大 -近邻 算法 从 测试 样本 点 x 开始 生长 ,不 断 地 扩 。 宾 
大 区 域 ,直到 包含 进 k 个 训练 样本 点 为 目 , 并 且 把 测试 样本 
点 x 的 类 别 归 为 这 最 近 的 个 训练 样本 点 中 出 现 频率 最 大 
的 类 别 。 图 中 为 上 《= 5 的 情况 ,根据 判定 规则 ,测试 样本 点 x 
被 归 类 为 黑色 的 点 所 属 的 类 别 





我 们 并 不 准备 深入 分 析 k- 近 邻 规则 。 然 而 ,我 们 将 讨论 一 个 两 类 问题 ,同时 取 k 为 奇数 
(这 样 就 避免 了 二 义 性 问题 ) 。 我 们 希望 通过 这 个 例子 使 读者 能 够 对 这 个 方法 的 本 质 获 得 某 种 
程度 上 的 理解 。 | 
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研究 上 -近邻 规则 的 动机 来 源 于 我 们 前 面 的 有 关 自 然 概 率 的 观察 。 首 先 注意 到 如 果 上 k 值 固 
定 ,并 且 人 允许 训练 样本 个 数 趋向 于 无 穷 大 ,那么 ,所 有 的 这 k 个 近邻 都 将 收敛 于 x。 这样 ,如 同 
最 近邻 规则 一 样 ,x 个 近邻 的 标记 都 是 随机 变量 ,概率 Po, |x), i=1,.2 都 是 互相 独立 的 。 假 
设 PCw。 |x) 是 较 大 的 那个 后 验 概率 ,那么 根据 贝 叶 斯 分 类 规则 ,我们 总 是 选取 类 别 w,。 而 最 
近邻 规则 则 以 概率 PCw, |x) 选 取 类 别 mw。 而 根据 上 -近邻 规则 ,只 有 当 k 个 最 近邻 中 的 大 多 数 
的 标记 为 w。, 才 判决 为 类 别 ww 。 敌 出 这 样 选择 的 概率 为 


k k . . 
> (7) Pona 一 P(@®m|x) 一 (53) 
i=(k+1)/2 


通常 ,k 的 值 越 大 ,选择 类 别 on 的 概率 也 越 大 。 

我 们 可 以 用 类 似 于 分 析 最 近邻 规则 的 方法 来 分 析 k- 近 邻 规则 。 然 而 ,因为 这 样 的 分 析 并 
不 能 带 来 更 多 的 对 其 本 质 的 理解 ,我 们 在 这 里 也 就 仅仅 以 疹 述 结果 为 满足 了 。 可 以 证 明 , 当 
为 奇数 时 ,大 样本 个 数 时 的 x -近邻 规则 的 二 类 误差 率 的 边界 为 函数 CC(P* ), 其 中 COPR 
定义 为 大 于 下 式 的 最 小 的 中 函数 


(k—1)/2 k 
> (‘) [esita — PHY + (P9 一 P*)i+!] (54) 
i=Q 
在 这 里 ,第 一 对 括号 中 的 求 和 代表 了 由 于 i 个 点 来 自 于 具有 最 小 概率 的 类 别 , 而 一 i 之 i 个 点 
来 自 于 其 他 的 类 别 而 产生 的 误差 率 。 对 括号 中 的 第 二 项 的 求 和 则 是 上 一 : 个 点 来 自 于 具有 最 
小 概率 的 类 别 ,而 ;十 1< 天 一: 个 点 来 自 于 概率 更 大 的 类 别 时 的 误差 率 。 应 用 上 -近邻 规则 , 那 
么 这 两 类 情况 都 可 能 产生 分 类 误差 ,因此 要 把 它们 相 加 以 形成 总 的 误差 率 ( 习 题 18) 。 
图 4-16 显示 了 在 k 取 不 同 值 的 时 候 ,k -近邻 规则 的 误差 率 的 界限 。 当 x 增加 时 ,上 界 就 
Por ir Hh ia EP HE BEN RREZ, FRB FABARN xT AR TBS AY RE k-i 
邻 规 则 就 成 为 最 优 分 类 规则 。 
图 4-16 ”对 于 一 个 两 类 问题 ,使 用 k -近邻 规则 的 误差 
率 以 公式 (54) 中 的 CP ) 为 界 。 图 中 的 每 一 条 曲线 都 
被 标记 上 k 值 。 当 =oo 时 ,估计 的 概率 等 于 真实 的 概 
” 率 , 同 时 误差 率 等 于 贝 叶 斯 误差 率 , 也 就 是 P 二 P* 








0 0.1 0.2 0.3 0.4 
p* 


为 了 强调 起 见 ,我 们 再 一 次 指出 在 实际 应 用 中 遇 到 的 有 限 样本 问题 。k -近邻 规则 可 以 被 
看 作 是 另 一 种 从 样本 中 估计 后 验 概率 PCw |x) 的 方法 。 为 了 得 到 可 靠 的 估计 ,我 们 必须 使 得 k 
越 大 越 好 。 另 一 方面 ,我 们 又 希望 x 的 个 近邻 x 距离 x 越 近 越 好 ,因为 这 样 能 保证 PCw |x’) 
尽 可 能 地 逼近 P(w: |x) 。 这 样 , 在 选取 k 值 的 时 候 ,就 不 得 不 做 出 某 种 折 中 。 只 有 当 n 趋 近 于 
无 穷 大 的 时 候 , 我 们 才能 保证 -近邻 规则 几乎 是 最 优 的 分 类 规则 。 
4.5.5 -近邻 规则 的 计算 复杂 度 

对 于 最 近邻 规则 的 计算 复杂 度 ( 空 间 复杂 度 和 时 间 复 杂 度 ) ,已 经 有 大 量 的 研究 和 探讨 。 
关于 计算 几何 中 的 构造 Voronoi 网 格 和 最 近邻 规则 在 一 维 或 二 维 空间 中 搜索 的 情况 ,已 经 有 
了 许多 优美 的 理论 结论 。 然 而 ,在 通常 情况 下 ,最 近邻 规则 使 用 的 最 多 的 场合 还 是 包含 许多 维 
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特征 的 问题 。 因 此 在 这 里 ,我 们 将 集中 于 讨论 d 维 空间 这 一 最 普通 的 情形 。 
假设 在 4 维 空间 中 ,有 7 个 已 标记 的 训练 样本 。 我 们 所 要 做 的 就 是 寻找 距离 测试 点 x 最 
近 的 那个 单个 的 训练 样本 。 在 最 简单 的 方法 中 ,我 们 搜索 每 一 个 训练 样本 点 , 找 出 距离 (使 用 
欧 几 里 德 距离 ) 最 近 的 那 一 个 。 每 一 个 距离 的 计算 的 复杂 度 为 O(d)。 因 此 ,这 样 的 搜索 方法 
的 总 的 计算 复杂 度 为 O(dn*)。 男 一 种 直接 的 并 行 的 实现 方法 如 图 4-17 所 示 , 这 个 方法 也 非 
常 简单 明了 ,其 具有 时 间 复 杂 度 OQ(1) 和 空间 复杂 度 O). 
图 4-17 一 个 并 行 的 最 近邻 算法 
的 硬件 电路 实现 。 这 个 实现 方式 
能 保证 搜索 的 时 间 为 常数 ,也 就 
是 ,时 间 复 杂 度 为 O(1)。 其 中 ,a 
维 的 测试 样本 点 x 被 输入 每 一 个 
盒子 中 ,用 于 计算 测试 样本 点 x 位 
于 网 格 表面 的 哪 一 边 。 如 果 它 位 
于 一 个 网 格 的 内 部 ,那么 就 位 于 某 





原型 样本 点 的 Voronoi 网 格 里 ,并 SiN 

且 得 到 相应 的 归 类 。 在 图 中 所 示 KE Bn /nN 

的 情况 下 ,每 3 个 与 门 对 应 于 一 个 

Voronoi 网 格 | | lal | | jl | | | hl 


12 d i2 d 2 d 12 d 2 d 12 d 2 d n d 12 ë d 


为 了 降低 最 近邻 规则 搜索 的 复杂 度 , 大 体 上 有 3 种 通用 的 方法 。 它 们 分 别 为 :计算 部 分 距 
A , 预 建立 结构 ,和 对 训练 样本 加 以 剪辑 。 只 使 用 全 体 4 个 维 数 的 一 个 子 集 ~ ,而 用 这 个 子 集 ~ 
来 计算 的 距离 为 


| 1/2 
D,(a, b) = (ze 一 n”) (55) 


k=] 


其 中 ~<d。 从 直觉 上 说 ,使 用 计算 “部 分 距离 ”"(partial distance) 方 法 ,就 相当 于 预先 假设 了 从 
子 集 -中 计算 得 到 的 部 分 距离 足以 有 效 地 代表 全 部 空间 的 情况 。 当 然 , 当 逐步 加 进 更 多 的 维 
数 时 ,部 分 距离 的 值 是 严格 非 递减 的 。 因 此 ,假设 当前 的 在 全 部 空间 上 的 最 近邻 已 经 得 到 , 那 
么 如 果 对 于 一 个 新 的 待 计算 的 训练 样本 点 ,如 果 其 在 子 集 r+ 上 的 部 分 距离 就 已 经 超过 了 当前 
的 最 近邻 的 全 部 距离 ,那么 这 个 点 显然 应 该 被 舍弃 。 

在 预 建立 结构 方法 中 ,首先 建立 某 种 形式 的 搜索 树 ,在 这 个 搜索 树 上 ,各 个 原型 样本 点 都 
被 有 选择 的 互相 连接 。 而 在 分 类 中 ,我们 先 对 搜索 树 的 几 个 根 节 点 进行 计算 ,选择 最 有 可 能 的 
那个 ,然后 对 属于 这 个 根 节 点 的 其 他 样本 点 进行 计算 。 然 后 ,依次 递归 的 执行 这 样 的 操作 , 直 
至 找到 最 近 的 那个 近邻 。 如 果 建 立 的 搜索 树 比较 合理 ,那么 这 个 算法 就 能 显著 降低 搜索 的 时 
[a] FT $B o | 

考虑 一 个 很 普通 的 例子 ,假设 样本 服从 单位 正方 形 内 的 均匀 分 布 , 也 就 是 说 , 户 Cx) 一 


(KIG ), 我 们 已 经 有 了 非常 大 量 的 训练 样本 。 设 想 ,可 以 选择 这 样 的 4 个 根 节点 (1 )， 


(3 人 人) (3 每 一 个 负责 连 楼 它 所 属 的 那个 1/4 象限 中 的 训练 样本 。 当 一 个 测试 点 
x 到 达 时 ,4 个 根 节 点 中 距离 测试 点 x 最 近 的 那个 点 首先 被 确定 。 然 后 , 接 下 来 的 搜索 就 只 局 
限于 这 个 根 节点 所 负责 的 那个 象限 了 。 也 就 是 说 ,在 这 个 例子 中 ,有 3/4 的 训练 样本 根本 没有 
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必要 被 访问 到 。 
注意 ,在 这 个 例子 中 ,我 们 不 能 保证 找到 的 结果 就 是 真正 的 最 近邻 。 例 如 ,假设 测试 点 第 


近 这 些 象限 的 边界 ,例如 ,x 一 ( oo) 在 这 个 特定 的 情况 下 ,只 有 位 于 第 一 象限 的 训练 样本 


0.5 
点 参与 搜索 。 而 事实 上 ,实际 的 最 近邻 却 有 可 能 位 于 其 他 的 3 个 象限 中 ,例如 ,靠近 | 。 处， 


这 个 例子 其 实 代表 了 模式 识别 领域 经 常 遇 到 的 问题 , 即 为 了 降低 计算 复杂 度 ,我 们 不 得 不 在 准 
确 率 上 付出 一 定 的 代价 。 

构造 更 加 复杂 的 搜索 树 能 够 在 一 定 程度 上 提高 准确 率 ,比如 每 一 个 根 节 点 只 和 一 小 部 分 
其 他 训练 样本 相连 等 等 ,更 加 深入 地 讨论 这 个 问题 就 超出 了 本 书 的 范围 。 然 而 有 一 点 是 肯定 
的 ,只 要 我 们 没有 访问 遍 全 体 的 训练 样本 ,那么 必然 无 法 保证 一 定 能 找到 实际 上 的 最 近邻 。 

第 三 种 方法 降低 搜索 的 计算 复杂 度 的 办 法 是 :在 训练 过 程 中 有 选择 的 消去 那些 对 于 问题 
来 说 “无 用 ”的 训练 样本 。 这 种 方法 有 时 被 称 为 “剪辑”“ 修 前 ”或 “前 枝 *“ 浓 缩 *”。 为 了 降低 空 
间 复 杂 度 OCn) ,一 个 简单 的 方法 是 把 周围 都 是 同一 类 别 的 那些 样本 点 删除 。 这 个 办 法 不 改变 
判决 边界 ,因此 也 不 增加 误差 率 , 同时 又 减少 了 访问 次 数 。 下 面 给 出 一 个 简单 的 剪辑 算法 : 


算法 3 (最 近邻 剪辑 算法 ) 

l begin initialize j <- 0,D < data setn — 原型 点 个 数 
2 RE DAE Voronoi 图 

3 do jj 一 j 十 1; 对 每 一 个 原型 点 x 

4 找到 x ; 的 所 有 Voronoi 近邻 

5 if 这 些 近 邻 中 存在 不 是 和 x’; 同一 类 别 的 点 ,then 标记 x’, 
6 until 7 一 7 
7 

8 

9 





删除 所 有 没有 被 标记 的 点 
构造 剩余 点 的 Voronoi 图 


end 


这 一 剪辑 算法 的 计算 复杂 度 为 Od ninn) ,其 中 的 向 下 取 整 操作 表示 :如 果 d 为 偶数 ， 
那么 | 4/2 |= k, WOR d 为 奇数 ,那么 | d/2 |=2 大 一 1 具体 可 以 参见 习题 10) 。 

根据 算法 3, 如 果 一 个 原型 样本 点 对 决策 边界 有 贡献 ( 即 这 个 点 的 近邻 中 ,至 少 有 一 个 的 
类 别 不 同 ) ,那么 这 个 原型 样本 点 就 得 到 保留 ,否则 就 被 删除 。 这 个 算法 并 不 能 保证 能 找到 最 
少 需要 的 原型 样本 点 集 。 然 而 ,这 个 算法 给 出 了 模式 识别 领域 ,在 不 影响 精度 的 前 提 下 能 够 显 
著 降 低 计算 复杂 度 的 一 个 例子 。 这 种 剪辑 算法 的 一 个 缺点 是 ,在 以 后 ,无 法 再 增加 训练 样本 
点 ,因为 剪辑 过 程 需要 全 部 样本 点 的 知识 (请 参见 上 机 练习 题 5) 。 在 这 一 节 结 束 之 前 ,我 们 再 
一 次 强调 ,为 了 降低 计算 复杂 度 , 以 上 的 3 种 方法 可 以 结合 使 用 。 比 如 ,我 们 可 以 先前 辑 原型 
样本 ,然后 构造 搜索 树 ,最 后 在 实际 分 类 时 ,使 用 部 分 距离 方法 。 


4.6 ”距离 度量 和 最 近邻 分 类 


在 设计 最 近邻 分 类 器 时 ,需要 一 个 衡量 模式 (样本 ) 之 间 的 距离 的 度量 函数 。 到 目前 为 止 ， 
我 们 仅仅 使 用 了 d 维 空间 中 的 “ 欧 几 里 德 距离 ?。 但 是 ,距离 的 概念 本 身 要 广义 得 多 。 因 此 ， 
在 这 一 节 中 ,我 们 将 详细 讨论 各 种 可 能 的 距离 一 一 这 其 实 是 模式 识别 领域 的 核心 问题 之 一 。 
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首先 ,让 我 们 回顾 度量 的 性 质 。 度 量 D(.*,*) 在 本 质 上 是 一 个 函数 ,这 个 函数 给 出 了 两 个 模式 


之 间 的 标量 距离 的 大 小 。 
4.6.1 度量 的 性 质 
一 个 度量 必须 满足 4 个 性 质 : 对 于 任意 的 向 量 ab Me A 
e JERE: D(a,a) 0 
。 自 反 性 :Da,b) 王 0 4AM a=b 
。 对 称 性 ;D(a,b) 二 DD(b,a) 
。 三 角 不 等 式 :D(a,b) 十 D(b,c) 宇 DCa,e) 
很 容易 证 明 ,d 维 空间 中 的 欧 几 里 德 距 离 


d 1/2 
D(a, b) = (Ze 一 no) (56) 


k=l 
能 够 满足 这 4 个 性 质 。 虽 然 在 两 个 同 量 之 间 总 是 可 以 应 用 欧 几 里 德 距离 公式 来 计算 其 距离 ， 
但 是 ,这 样 得 到 的 距离 未 必 总 是 有 意义 的 。 例 如 ,如 果 我 们 用 对 每 一 个 坐标 轴 均 分 别 乘 以 一 个 
任意 常数 的 方法 进行 坐标 变换 ,那么 变换 后 的 空间 中 的 欧 几 里 德 距 离 关 系 和 原 空间 中 的 将 是 
非常 不 同 的 ,虽然 这 样 的 坐标 变换 的 实质 只 是 改变 了 每 一 个 特征 的 单位 (请 参见 习题 19)。 在 
最 近邻 分 类 中 ,这 样 的 尺度 变换 将 是 具有 决定 性 的 影响 的 (图 4-18) 。 


x; 





OX, 


图 4-18 ”图 中 说 明 对 代表 特征 的 坐标 轴 进 行 尺度 变换 能 够 改变 欧 几 里 德 距 离 度量 关系 。 这 里 ， 
我 们 观察 这 样 的 尺度 变换 能 够 如 何 的 改变 一 个 最 近邻 规则 分 类 器 。 考 虑 一 个 测试 样本 点 和 离 它 
最 近 的 原型 样本 点 。 在 左 图 所 示 的 原 空间 中 ,黑色 的 点 表示 最 近 的 原型 样本 点 。 而 在 右边 的 图 
中 ,xi 轴 经 过 了 尺度 变换 ,缩短 到 原来 的 1/3, 这 时 我 们 看 到 ,最 近 的 原型 样本 点 变 成 了 右 下 角 的 
那个 点 。 如 果 每 一 个 维 中 的 全 部 数据 分 布 范围 有 很 大 不 同 ,那么 一 个 通常 的 做 法 就 是 对 每 一 个 
维 ,分 别 进行 尺度 均衡 化 ,使 得 每 一 维 数据 的 变化 范围 都 相等 。 这 就 相当 于 改变 了 原 空间 中 的 距 
高 度量 | 


更 加 广义 的 d 维 空间 中 的 度量 为 Minkowski 距离 度量 


d 1/k | 
L(a, b) = (2 la; — nt) (57) 
i=l 
He BRAWL, CR YM 20), AFE, , 欧 几 里 德 距离 就 是 工 ; 范 数 。 而 Li 范 数 有 时 候 被 称 为 
Manhattan 距离 或 者 街区 距离 (city bloc distance) ,这 个 距离 代表 从 a 点 到 b 点 的 最 近 路 径 的 
每 一 段 都 平行 于 对 应 的 坐标 轴 ( 这 两 个 名 字 的 由 来 是 因为 在 Manhattan 城 ,道路 基本 上 都 是 
严格 的 南北 或 东西 方向 的 )。 假 设 我 们 计算 a 点 和 b 点 问 4 个 坐标 轴 的 投影 之 间 的 距离 ,那么 
a 点 和 bb 点 之 间 的 L 范 数 就 表示 这 些 投影 距离 中 的 最 大 可 能 值 (图 4-19). 
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图 4-19 每 一 个 彩色 的 平面 由 距离 原点 为 
1.0( 使 用 不 同 的 k 值 的 Minkowski 距离 ) 的 点 
所 形成 。 这 样 ,白色 的 表面 对 应 于 上; 范 数 
(Manhattan 距离 )。 浅 灰色 的 球体 对 应 于 L 
范 数 ( 欧 几 里 德 距 离 ), 暗 灰色 的 表面 对 应 于 La 
范 数 , 而 粉红 色 的 立方 体 对 应 于 工 . 范 数 





描述 两 个 集合 之 间 的 Tanimoto 距离 度量 在 分 类 学 (taxonomy) 中 得 到 广泛 地 应 用 。 其 是 
义 为 
penimatolid ts S2) = a Ae = == aii (58) 
ny +n? — n)? 
其 中 的 n Mon 分 别 是 集合 S， MS 的 元 素 个 数 。 而 mm* 是 这 两 个 集合 的 交集 中 的 元 素 个 数 。 
Tanimoto 距离 度量 在 处 理 这 样 的 问题 中 得 到 了 广泛 地 应 用 :两 个 集合 中 的 元 素 或 者 全 部 相 
同 ,或 者 全 部 不 同 , 而 分 级 的 相似 性 度量 则 不 存在 (参见 习题 27) 。 

究 竞 选择 何 种 距离 度量 通常 是 出 于 计算 能 力 的 考虑 ,而 试图 通过 先 验 的 关于 分 布 本 身 的 
知识 来 选择 最 佳 的 距离 度量 是 非常 困难 的 。 当 然 ,如 果 在 d 维 空 间 中 ,使 用 不 同 的 坐标 轴 方 
问 会 导致 很 大 的 差别 ,那么 这 个 问题 是 例外 的 情况 。 这 里 ,我 们 需要 对 数据 进行 尺度 变 
换 或 者 说 ,变换 距离 度量 ,如 同 图 4-18 所 表示 的 那样 。 

46.2 切 空 间距 离 

在 最 近邻 规则 中 ,如 果 不 加 考虑 的 任意 选择 距离 度量 ,会 有 很 多 问题 。 解 决 的 一 个 办 法 是 
使 用 更 加 一 般 化 的 度量 。 这 其 中 的 一 个 重要 问题 是 不 变量 (invarince) 问 题 。 考 虑 一 个 100 维 
的 样本 x ,表示 一 个 10 x 10 的 手写 的 “5” 字 符 的 灰 度 图 像 。 我 们 把 这 个 “5” 字 本 身 做 一 个 水 
平 的 平移 ,如 图 4-20 所 示 。 

图 4-20 ”因为 忽略 平移 不 变性 问题 而 

不 加 分 辨 地 使 用 欧 几 里 德 距 离 有 时 候 

会 带 来 严重 的 误差 。 上 图 中 的 模式 x 

代表 一 个 手写 体 字符 “5”, 而 x (s=3) 

代表 同一 个 形状 ,但 是 经 过 了 向 右 的 aa 

3 个 像素 的 平移 。 这 样 , 欧 几 里 德 距离 Dx x 

度量 的 结果 D(x ,x (s=3) BE 

D(x x ) 大 得 多 ,其 中 的 x 表示 一 个 

手写 体 字符 “8”。 这 样 ,使 用 欧 几 里 德 。 pw x， 

距离 度量 的 最 近邻 规则 分 类 器 就 会 导 ane 

致 很 大 的 分 类 误差 。 所 以 ,为 了 解决 这 

个 问题 ,我 们 必须 寻找 一 个 对 一 些 已 知 

的 变换 (比如 平移 ,旋转 ,尺度 变换 等 ) 

不 敏感 的 距离 度量 3 " 3 
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如 采 使 用 哆 儿 里 德 点 离 的 话 , 即 使 * 只 平移 3 个 像素 的 距离 ,平移 后 的 样本 和 原样 本 之 间 
的 距离 就 已 经 非常 大 了 ,甚至 要 比 原 样本 和 一 个 未 经 过 平移 的 “8” 字 符 之 间 的 距离 要 大 得 多 . 
也 就 是 说 ,因为 在 这 种 场合 ,用 欧 几 里 德 距离 来 比较 模式 之 间 的 相似 性 ,会 对 平移 太 敏 感 ,因此 
几乎 是 没有 用 的 。 

类 似 地 , 欧 几 里 德 距离 在 处 理 其 他 的 转换 (比如 图 像 旋转 .或 尺度 变换 ) 时 ,也 存在 适应 性 
很 差 的 缺点 。 在 我 们 同时 要 求 一 些 不 变性 的 时 候 , 比 如 ,要 求 同 时 具有 关于 水 平平 移 ,垂直 平 
移 ,旋转 , 太 度 变换 ,线条 粗细 等 等 的 不 变性 (上 机 练习 7 和 8) 时 ,该 缺点 带 来 的 问题 就 变 得 非 
利 严 重 了 。 茶 种 预 处 理 可 能 能 够 减少 一 些 影响 ,比如 ,我 们 可 以 根据 使 图 像 重 心 归 一 化 来 消除 
平移 的 影响 ,但 是 我 们 必须 看 到 ,特别 是 当 图 像 噪声 比较 大 的 时 候 , 这 个 办 法 就 不 可 靠 了 。 因 
此 ,我 们 必须 寻求 更 加 可 靠 方法 。 

在 理想 情况 下 ,除非 我 们 已 经 把 两 个 模式 变换 地 尽 可 能 相似 ,否则 不 会 过 早 地 计算 这 两 个 模 
式 之 间 的 距离 。 然 而 ,这 样 的 预 变换 的 计算 复杂 度 通常 是 非常 大 的 。 对 一 个 kxk 大 小 的 图 像 进 
行 预 先 固定 角度 的 旋转 ,并 内 插 到 一 个 新 的 网 格 平 面 上 ,计算 复杂 度 就 是 OCR), Ri HSS 
况 下 ,我 们 其 至 不 知道 应 该 需要 旋转 多 少 角 度 , 因 此 必须 进行 不 同 角 度 的 尝试 ,而 得 一 次 尝试 都 
需要 进行 一 次 距离 的 计算 ,来 检查 这 时 候 是 否 达 到 了 最 佳 的 效果 。 如 果 在 分 类 时 ,对 每 一 个 训练 
样本 都 进行 这 样 的 尝试 的 话 , 那 么 这 样 做 的 计算 复杂 度 几 乎 是 无 法 忍受 的 (习题 25), 

切 空 间距 离 (tangent distance, 简 称 为 “ 切 距 ”) 分 类 器 使 用 一 个 全 新 的 距离 的 度量 和 一 个 
可 以 近似 任意 变换 的 线性 允 近 (linear approximation)。 假 设 我 们 已 经 知道 所 需 处 理 的 问题 会 
涉及 了 种 变换 ,比如 水 平平 移 .垂直 平移 . 剪 切 .旋转 .尺度 变换 、 线 条 的 细 化 ,等 等 。 在 设计 分 
类 器 时 ,我 们 对 每 一 个 原型 样本 点 x ,都 进行 每 一 种 变换 操作 大 ;(x ;a;)。 这 样 ,F(x ;a ) 就 能 
够 代表 图 像 x 经 过 角度 为 a 的 旋转 得 到 的 新 的 图 像 ,等 等 。 然 后 ,对 每 一 种 操作 ,我 们 都 构造 
— AH fa] & (tangent vector) TV, (B| 4-21); 

TV; = F(x; a) — x’ (59) 

R 4-21 左上 角 所 示 的 手写 体 字 ar 

符 "5” 的 原型 受到 两 种 变换 ;旋转 和 

细 化 ,对 应 的 切 向 量 为 TV 和 TV. 

对 应 这 两 种 切 向 量 的 图 像 分 别 显 示 

在 坐标 轴 的 左边 和 下 面 。 而 坐标 之 

间 的 16 幅 图 像 对 应 于 经 过 了 这 两 

种 变换 的 线性 组 合 结果 ,系数 分 别 

为 ual 和 a,。 每 一 图 像 左 上 角 的 数字 

表示 切线 近似 与 未 经 近似 的 变换 得 

到 图 像 之 间 的 欧 氏 上 距离。 当然 ,这 

一 距离 对 于 二 1,4; =O MA a 一 

0,w 一 1 的 情况 都 为 零 。 如 果 + 

a2 之 1, 那 么 由 于 对 负 值 像素 需要 进 

行 灰 度 转换 ,因此 产生 的 模式 具有 

一 个 灰色 的 背景 
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虽然 计算 可 能 比较 费时 ,比如 ,线条 细 化 操作 的 计算 复杂 度 就 比较 大 。 但 这 样 的 计算 只 需要 进 
行 一 次 就 够 了 ,而 且 在 训练 过 程 中 ,对 计算 时 间 并 没有 很 严格 的 限制 。 这 样 ,对 每 一 个 原型 样 
AR iG r X az 的 矩阵 工 ,矩阵 T 由 x 处 的 切 向 量 组 成 。 这 些 向 量 可 能 是 正 交 的 。 在 这 里 ， 
我 们 只 需要 假设 它们 是 线性 无 关 的 。 还 需要 指出 的 是 ,这 个 办 法 对 于 二 值 图 像 是 无 效 的 ,因为 
二 值 图 像 的 求 导 运算 无 法 定义 。 所 以 ,如 果 必 须 用 这 个 办 法 处 理 二 值 图 像 的 话 , 那 必须 对 图 像 
进行 平滑 (模糊 ) 操 作 。 

在 由 这 -~ 个 通过 x 的 切 向 量 所 张 成 的 子 空 间 中 ,每 一 个 点 都 代表 对 所 有 操作 的 效果 的 线 
性 逼近 ,如 图 4-22 所 示 。 在 分 类 时 ,我 们 也 在 切 向 量 空间 中 寻找 和 测试 向 量 x 最 接近 的 原型 
样本 点 。 我 们 将 看 到 ,这 样 的 搜索 速度 是 非常 快 的 。 


图 4-22 ”一 个 原型 样本 点 x ,如 果 用 两 个 基本 变换 的 
组 合 进行 变换 ,那么 结果 将 落 在 d 维 空间 的 一 个 复杂 
曲面 上 的 某 处 。x 处 的 切 空间 为 一 个 > 维 的 欧 几 里 德 
空间 ,这 个 空间 由 切 向 量 所 张 成 (这 里 为 TV ,TV: ) 。 
而 切 空间 距离 Dan (x ,x) 为 从 x 到 x 处 的 切 空间 的 最 
短 欧 几 里 德 距 离 。 在 图 中 用 红色 的 直线 表示 xi ,xs 。 
这 样 , 虽 然 从 x 到 x 的 距离 小 于 到 x 的 距离 ,但 是 对 
于 切 空间 距离 ,就 不 是 这 个 情况 了 。 从 x 到 x HOS 
间 的 欧 几 里 德 距离 示 一 个 关于 参数 向 量 a 的 二 次 型 ， 
如 图 中 的 抛物 面 所 示 。 这 样 ,简单 的 梯度 下 降 法 就 可 
以 用 来 求 得 最 优 的 向 量 a. 也 就 能 够 求 得 切 空间 距离 
DiS rn 





现在 ,我 们 转 而 计算 从 一 个 测试 点 x 到 某 一 个 特定 的 原型 样本 点 x' 之 间 的 切 空 间距 离 。 
WREE T H x! 处 的 ~ 个 切 向 量 组 成 ,那么 测试 点 x' 到 原型 样本 点 x 的 距离 为 


Da (X', x) = min[||(x’ + Ta) 一 xl (60) 


也 就 是 说 ,这 就 是 从 x 到 x 的 切 空间 的 距离 。 公 式 (60) 描 述 了 这 种 被 称 为 “ 单 边 ”(one-side) 的 
切 空间 距离 ,因为 这 里 只 有 模式 x 需要 进行 变换 。 而 双边 (two-side) 的 切 空间 距离 至 多 只 能 
增加 少量 的 准确 度 , 却 大 大 增加 计算 复杂 度 ( 习 题 23) ,因此 不 常 使 用 ,也 就 是 说 ,我 们 通常 只 
关注 单 边 的 算法 。 

在 对 x 进行 分 类 时 ,我 们 通过 寻找 使 得 表达 式 (60) 最 优化 的 那个 a 来 得 到 测试 点 x 到 原 
型 样本 点 x 的 切 空间 距离 。 这 个 最 优化 的 工作 其 实 是 非常 简单 的 ,因为 我 们 试图 最 小 化 的 那 
个 平方 距离 是 a 的 二 次 型 ,如 图 4-22 的 波峰 所 示 。 通 过 简单 的 搜索 算法 ,比如 迭代 梯度 下 降 
法 ,或 矩阵 运算 方法 ,我们 就 能 够 找到 最 优 的 a。 具体 的 算法 设计 细节 将 在 第 5 章 中 详细 讨 
É. 
"4.7 模糊 分 类 


有 时 候 ,我 们 对 一 个 问题 只 有 一 些 不 精确 的 知识 ,在 这 种 情况 下 ,如 何 设计 分 类 器 呢 ? 例 
如 ,我 们 可 能 会 感到 ,一 般 说 来 ,一 条 成 年 的 链 鱼 通常 是 瘦长 的 ,并 且 颜 色 比 较 浅 ,而 一 条 鲈鱼 
则 更 矮 胖 ,并 且 颜 色 深 。“ 模 糊 分 类 ”(fuzzy classification) 中 使 用 的 方法 是 构造 一 个 所 谓 的 “ 模 
WX ial] SE JE BE phi Be” (fuzzy category memberships function) 。 这 个 函数 把 客观 度量 得 到 的 参 
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数 转化 为 主观 的 “类 别 隶 属 度 ”(category membership), 然后 用 于 分 类 。 这 里 ,我 们 要 特别 指 
出 ,在 这 上 儿 我 们 所 指 的 “类 别 ”(category) 并 不 是 我 们 一 直 在 讨论 的 最 终 “ 分 类 ”(classification) 
中 的 那个 “类 ”(class) ,而 是 表示 有 互相 重生 的 特征 区 域 。 例 如 ,如 果 我 们 考虑 颜色 亮度 这 一 特 
征 , 我 们 可 以 把 这 个 特征 分 为 5 个 类 别 : 暗 , 中 等 偏 暗 ,中 等 ,中 等 偏 亮 , 亮 。 为 了 避免 误解 起 
见 ,我们 在 谈 到 这 种 "类别 ? 时 ,都 使 用 引号 。 
举例 来 说 ,我 们 可 能 有 如 图 4-23 所 示 的 关于 鱼 的 亮度 和 形状 。 然 后 ,我 们 就 需要 一 种 方 

法 ,能 够 把 对 于 这 些 特征 的 度量 的 客观 结果 转化 成 关于 鱼 的 确定 的 类 别 。 并 且 ,为 了 实现 这 个 
目的 ,我 们 需要 一 个 “混合 ”或 “ 合 取 ”规则 ,这 个 规则 能 够 利用 隶属 度 产 生 最 终 的 分 类 结果 。 在 
这 里 ,模糊 逻辑 的 倡导 者 们 认为 可 以 选用 任意 可 能 的 函数 。 事 实 上 ,大 多 数 函 数 都 是 可 行 的 ， 
并 没有 一 般 性 的 准则 来 判定 选取 哪个 函数 是 最 佳 的 。 经 常 使 用 的 一 个 指导 性 原则 是 ,在 极端 
情况 下 ,隶属 度 函 数 成 为 0 或 1, 那么 合 取 规 则 就 退化 为 确定 性 的 逻辑 推 新 。 同 样 的 ,定义 域 
的 对 称 性 也 常常 应 该 要 满足 。 尺 管 如 此 ,确实 并 没有 坚实 的 理论 基础 来 要 求 必须 服从 这 些 原 
则 ,而 县 这 些 原 则 本 身 也 并 不 是 决定 "类别 ?的 充分 条 件 。 

图 4-23 利用 从 设计 者 的 先 验 知 识 得 到 的 “类 别 隶 属 H 

度 ” 函 数 , 以 及 合 取 规则 (conjunction) ,就 能 够 得 到 分 类 

wR. EAP. r 能 够 代表 一 个 客观 的 度量 值 ,比如 一 

条 鱼 表 面 的 反射 度 。 当 然 , 这 里 的 特征 的 “类 别 ”, 不 等 

于 真正 的 分 类 的 “类 别 ” 


E ， 
假设 一 个 设计 者 认为 基于 亮度 和 形状 的 最 终 分 类 可 以 用 中 等 亮度 和 长 方形 来 描述 。 当 局 
BER AYE HN SER EP eC +) ,把 客观 观测 到 的 参数 转化 为 两 个 “类别 隶属 度 " 时 ,我 们 需要 一 


个 合 取 规 则 ,来 把 “隶属 度 "进一步 转 化 为 确定 的 分 类 判别 函数 。 有 许多 方法 可 以 实现 这 个 步 
又 。 最 常用 的 一 种 方法 是 


HAx(X) .Wy(y) (61) 


如 果 有 更 多 的 特征 ,那么 其 推广 也 是 显而易见 的 。 

上 面 所 讲述 的 模糊 方法 似乎 很 像 Parzen 窗 方法 、 概 率 神 经 网 络 方法 .或 第 6 章 中 我 们 将 
讨论 的 径 向 基 函 数 方法 。 于 是 ,这 种 相像 性 目 然而 然 的 就 带 来 下 面 这 个 常常 引起 争论 的 问题 : 
模糊 类 别 隶 属 度 是 不 是 就 是 “概率 ”? 或 者 正比 于 概率 ? 首先 ,我们 必须 强调 ,古典 概率 的 适用 
范围 非常 广泛 ,而 不 仅仅 只 能 表示 某 一 事件 发 生 的 可 能 性 。 甚 至 在 模糊 逻辑 方法 和 类 别 隶 属 
度 函 数 被 提出 来 之 前 ,在 统计 领域 ,模式 识别 领域 ,甚至 哲学 界 , 对 于 概率 的 本 质 早 就 有 非常 激 
烈 的 争论 。 有 的 人 质疑 对 那些 惟一 的 .不 可 重复 的 事件 运用 概率 是 否 有 意义 ,比如 星期 二 下 
雨 的 概率 是 多 少 ”? 他 们 认为 对 这 些 事件 用 概率 进行 解释 是 无 意义 的 。 这 样 的 争论 其 实 澄清 
了 一 个 事实 ,概率 并 不 只 适用 于 可 重复 的 事件 。 相 反 地 ,从 20 世纪 的 前 半期 以 来 ,概率 已 经 被 
应 用 于 逻辑 推断 。 而 且 ,在 模式 识别 领域 ,实践 中 设计 者 发 现 他 们 不 必 过 于 关心 分 类 函数 到 底 
是 代表 着 “概率 ”“ 主 观 概率 “近似 频率 ”或 者 是 别 的 什么 东西 ,而 照样 能 够 很 好 的 使 用 这 些 
分 类 函数 。 这 样 的 话 , 上 面 对 于 模糊 技术 的 讨论 事实 上 都 可 以 归 入 经 典 的 概率 的 范畴 ,其 中 概 
率 ( 指 广义 上 的 概率 ) 包 含 了 “类 别 隶 属 度 ” 这 一 概念 。 
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图 4-24 从 设计 者 的 先 验 知识 得 到 的 “类 局 
别 隶 属 度 ” 函 数 .结合 合 取 规 则 ,就 能 够 得 到 
分 类 函数 。 这 里 的 .r 和 xs 为 对 于 特征 的 
客观 的 度量 值 。 设计 者 认为 某 一 个 类 别 能 oi 
够 用 两 种 "类别 隶属 度 " 的 联合 来 描述 。 这 ii 
里 ,用 公式 (61) 所 描述 的 合 取 规则 来 形成 最 
后 的 分 类 函数 。 最 后 的 分 类 函数 如 图 中 的 
灰色 部 分 所 示 : 分 类 函数 的 值 越 大 ,灰色 部 








分 越 暗 。 对 于 其 他 类 别 ,设计 者 用 类 似 的 方 3 FO 
法 构建 分 类 函数 。 在 分 类 的 过 程 中 ,选择 使 11 
得 分 类 函数 值 最 大 的 那个 类 别 

0 X] 
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们 的 说 法 在 长 远 来 看 将 是 非常 有 益 的 ,因为 如 果 想 精通 模式 识别 领域 ,那么 我 们 必须 理解 各 种 
技术 的 优势 和 局 限 性 是 什么 ,它们 各 能 够 提供 何 种 解决 方案 ,又 对 什么 问题 无 能 为 力 。 模 糊 逻 
辑 的 支持 者 们 喜欢 用 下 面 这 个 例子 :他 们 会 考虑 往 茶 里 面 加 进 半 勺 糖 这 一 情形 ,然后 下 结论 
说 ,茶水 隶属 于 类 别 “ 甜 ?的 隶属 度 为 0. 5, 而 不 会 说 茶水 甜 的 可 能 性 (概率 ) 为 50% 。 但 这 种 情 
况 可 以 简单 的 理解 为 菜 种 反映 甜 的 特征 的 值 为 0.5, 并 且 还 存在 着 一 个 分 类 函数 ,其 中 的 一 
参数 就 是 这 个 反映 甜 的 特征 。 

现在 我 们 不 再 过 多 的 纠缠 在 关于 概率 的 本 质 的 概念 性 的 争论 上 面 ,而 是 考虑 应 该 如 何 进 
行 测 量 并 把 结果 用 于 类 别 推断 。 首 先 假设 在 给 定 用 数学 函数 表示 的 数据 4 的 情况 下 ,对 于 类 
别 a,5 或 ec 的 隶属 度 ， 可 以 计算 一 一 种 有 意义 的 置信 度 : P(ald),P(b|d) MM Plcld), BA. xt 
本 这 种 置信 和 度 函 数 的 至 少 应 该 满足 的 性 质 , 我 们 有 什么 要 求 呢 ? 在 下 面 给 出 的 “Cox 公理 ”( 也 
称 为 “Cox-Jaynes 公理 ”) 提 供 了 一 种 合理 的 至 少 应 该 满足 的 性 质 集 : 

1. 如 果 P(ald)>P(b\d),P(b|d)>Plcld). BA Pta lay Pieds 也 就 是 说 ,实数 
形式 的 置信 和 度 必 须 有 上 自然 的 序 关 系 (ordering ) 。 

2. PCnot ald)= 二 FLP(ald)]。 也 就 是 说 ,关于 某 种 情况 不 成 立 的 论断 的 置信 和 度 可 以 表 
示 成 这 种 情况 成 立 的 置信 和 度 的 某 种 函数 形式 。 注 意 , 这 种 置信 和 度 是 一 些 分 级 的 值 (graded 
value) 。 

3. P(a,b|d) =F. P(ald),P(bla.d)]. 

X3 TARRE TB SEM BREN. mee RHE. RERS 
适 的 斥 度 Ba R/MAA OR ATAW 1, OO. RE BEAR (CY 30) RR F (a) = 
l—a, PIR F(a,b) 二 a X 5。 从 这 两 个 函数 中 ,结合 经 典 的 推断 技术 ,我 们 就 得 到 概率 法 则 。 
任何 相 容 的 推断 方法 在 形式 上 都 等 价 于 标准 的 概率 推断 。 

尽管 关于 这 些 基本 问题 存在 争论 ,许多 实际 工作 者 都 很 乐于 使 用 模糊 逻辑 方法 。 他 们 认 
为 只 要 一 种 方法 有 用 ,那么 它 就 值得 掌握 。 因 此 ,除了 解 这 个 方法 的 优势 之 外 ,还 需要 对 其 局 
限 性 也 有 清晰 的 认识 。 模 糊 逻 辑 方法 的 局 限 性 在 于 : 

。 在 高 维 问 题 .或 复杂 问题 .或 者 涉及 到 几 十 甚至 上 百 的 特征 个 数 时 ,应 用 模糊 逻辑 方法 

是 非常 困难 的 。 
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。 设 计 者 能 够 提供 的 帮助 求解 问题 的 信息 量 非常 之 少 一 一 只 有 隶属 度 函 数 的 个 数 , 位 置 
和 宽度 等 。 
e 由 于 缺乏 适当 的 归 一 化 方法 ,纯粹 的 模糊 技术 对 于 存在 可 变 的 代价 和 矩阵 (上 机 练习 9) 的 情 
况 很 难处 理 。 
。 纯粹 的 模糊 技术 不 使 用 训练 样本 。 这 使 得 当 纯 粹 的 模糊 技术 不 能 达到 设计 要 求 时 ,人 
们 通常 转 而 使 用 茶 些 自 适 应 的 方法 (比如 神经 模糊 技术 等 )。 

如 果 说 模糊 技术 对 模式 识别 领域 有 什么 明确 的 贡献 的 话 ,那么 这 个 页 献 就 在 于 , 它 在 一 定 
程度 上 指引 人 们 如 何 把 一 种 语言 形式 的 知识 转化 成 确定 的 分 类 函数 。 纯 粹 模糊 技术 的 一 个 严 
重 局 限 性 是 它们 不 依赖 训练 样本 。 并 且 如 果 用 此 方法 达 不 到 设计 要 求 时 ,人 们 通常 利用 神经 
网 络 或 其 他 目 适 应 的 方法 来 补偿 。 


* 4.8 RCE 网 络 


在 前 面 的 讨论 中 ,我 们 已 经 看 到 Parzen 窗 方法 在 整个 特征 空间 中 都 使 用 同一 个 固定 的 
窗 。 然 而 ,有 的 场合 会 出 现 这 种 情况 : 即 在 特征 空间 的 某 些 区 域 中 ,小 的 窗 能 够 有 较 好 的 效果 ， 
而 在 另外 一 些 区 域 中 ,大 的 窗 会 有 较 好 的 效果 。 对 于 这 样 的 问题 ,大 -近邻 规则 是 通过 在 不 同 点 
自 适应 的 调整 区 域 大 小 来 解决 这 个 问题 的 。 不 严格 地 说 , 介 于 Parzen 窗 方法 和 -近邻 规则 方 
法 之 间 的 途径 应 该 是 这 样 的 :在 训练 过 程 中 ,对 于 当前 点 ,根据 这 个 点 到 离 它 最 近 的 非 同一 类 
别 的 点 的 距离 来 调节 窗 的 大 小 。 这 种 区 域 调整 算法 能 够 用 神经 网 络 的 结构 来 实现 。 

一 种 有 代表 性 的 方法 称 为 “衰减 库仑 势 ( 函 数 ) 法 ”(reduced coulomb energy) ,或 者 “RCE 
网 络 ” 法 ,其 结构 如 图 4-25 所 示 。 这 种 RCE 网 络 具 有 与 概率 神经 网 络 相 同 的 拓扑 结构 
(图 4-9)( 其 名 字 的 来 源 是 因为 这 个 网 络 的 一 些 方程 类 似 于 静电 学 中 描述 一 组 带电 粒子 的 库 
仑 能 量 的 公式 )。 在 RCE 网 络 中 ,每 一 个 模式 层 单元 都 有 一 个 对 应 于 d 维 输入 特征 空间 中 的 
超 球体 的 半径 的 可 调整 的 参数 。 在 训练 时 ,调节 每 一 个 半径 的 数值 ,使 得 每 一 个 模式 层 单 元 
(pattern unit, 如 图 所 示 ) 能 够 包含 进 一 个 尽 可 能 大 的 区 域 ,要 求 这 个 区 域内 的 所 有 训练 样本 
点 都 属于 同一 个 类 别 。 


图 4-25 一 个 RCE 网 络 的 拓扑 结构 与 图 4-9 
所 找 述 的 概率 神经 网 络 (PNN) 的 拓扑 结构 相 
同 。 在 训练 过 程 中 ,每 一 个 归 一 化 权重 被 设置 
为 等 于 输入 的 对 应 的 归 一 化 样本 。 这 样 ,距离 
就 可 以 用 内 积 来 计算 得 到 。 存 RCE 网 络 中 ， 
模式 层 单元 也 有 一 个 对 应 于 半径 4 的 可 调节 
的 阅 值 。 在 训练 过 程 中 ,每 一 个 阅 值 都 受到 调 
节 , 以 使 得 对 应 的 模式 层 节点 尽 可 能 的 包含 进 
最 多 的 同类 别 的 点 





算法 4 (RCE 网 络 的 训练 算法 ) 

1 begin initialize ;<-0,n 一 # 模 式 ,e 一 小 模式 ,4,, 一 最 大 半径 
2 do j < j 十 1 

3 ws 一 Xi( 训 练 权重 》 

4 x<-arg minD (x,x )( 找 到 不 属于 w; 的 最 近邻 点 ) 
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5 A;<-min|D(x,x’)—€,A,, ] (设置 半径 参数 ) 
6 if xEw， thena,- 1 | 

7 until 7 =n 

8 end 


有 一 些 比较 微妙 的 细节 我 们 这 里 不 准备 详细 讨论 。 比 如 ,如果 一 个 模式 层 单 元 的 半径 变 
ASAE FEN SF SES BEL 4 ) 那 么 这 表明 几 个 类 别 之 间 有 严重 的 重生 现象 。 在 这 种 情况 下 ， 
这 个 模式 层 的 单元 会 被 称 为 “可 能 ”(probabilistic) 单 元 ,并 且 被 相应 的 标记 出 ， 

在 分 类 时 ,一 个 归 一 化 了 的 测试 样本 被 分 类 为 和 它 所 属 的 区 域 相同 的 类 别 。 而 任何 重 亚 
的 区 域 被 认为 是 “模糊 的 ”( 如 图 4-26 所 示 )。 应 该 注意 ,存在 模糊 区 域 是 有 用 处 的 ,因为 我 们 
可 以 深入 地 询问 这 个 区 域 中 的 具体 的 点 的 类 别 身份 。 如 果 仍 然 记 4 为 原型 样本 点 x 对 应 的 
半径 , 令 D, 表 示 这 个 归 一 化 了 的 测试 样本 所 属 的 超 球体 中 的 训练 样本 点 的 集合 。 那 么 ,得 到 
分 类 算法 如 下 所 示 





算法 5 (RCE 网 络 分 类 算法 ) 
l begin initialize j — 0,k — 0,x 一 MRAR, De {3 
2 doj<jtl 


3 if D(x,x';)<A, then D~- D, Ux’, 

4 until 7 =n 

5 证 所 有 x ;ED 标记 相同 then return 所 有 x €D, 的 标记 
6 else return “模糊 ”标记 

7 end 





图 4-26 在 训练 RCE 网 络 的 过 程 中 ,每 一 个 样本 点 
都 有 一 个 参数 一 一 对 应 于 d 维 空间 中 的 半径 一 一 以 使 
得 对 应 的 样本 点 尽 可 能 地 包含 进 最 多 的 同类 别 的 点 。 
如 果 新 的 训练 样本 点 被 加 和 人 ,那么 这 些 半 径 都 必须 减 
小 ,以 使 得 半径 之 内 的 点 都 是 同一 类 别 的 。 在 图 中 ,对 
应 于 一 类 的 区 域 为 粉红 色 的 ,而 另 一 类 别 的 区 域 则 为 
灰色 的 。 模 糊 区 域 则 用 深 红 色 表 示 。 每 一 个 分 量 图 
中 ,表示 出 了 样本 点 的 数目 。 最 低 端 的 图 用 不 同 的 颜 
色 表 示 了 不 同 区 域 之 间 的 最 终 的 判定 界面 
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至 此 为 止 所 介绍 的 非 参数 方法 都 有 一 些 缺 陷 : 它 们 或 者 要 求全 部 的 训练 样本 都 被 存储 起 
来 ,或 者 要 求 设计 者 掌握 关于 问题 本 身 的 大 量 的 信息 。 由 于 通常 只 有 大 量 的 训练 样本 ,才能 保 
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证 估计 的 准确 性 ,因此 这 些 算法 对 存储 器 容量 的 要 求 就 十 分 高 了 。 而 且 , 估计 概率 密度 函数 


p(X) 或 者 对 一 个 新 的 测试 样本 x 进行 分 类 都 可 能 非常 花 时 间 。 

在 某 些 情况 下 ,我 们 有 可 能 修改 Parzen 窗 方法 来 显著 地 降低 计算 复杂 度 。 其 核心 思想 是 
用 一 个 有 限 的 级 数 来 逼近 窗 函 数 ,而 这 个 级 数 对 窗 也 数 的 到 近 程 度 只 要 能 够 满足 问题 的 需要 
即 可 。 如 果 我 们 足够 幸运 ,能够 找到 两 类 函数 Wi;(x) 和 x; (x) 满 足 


(=) = 2 aW x0) (62) 





那么 ,我 们 能 够 把 函数 p| ) 对 x 和 x 的 依赖 性 分 开 为 





DeC z~) = Lav) D (63) 
根据 公式 (11) ,我 们 有 
Pn (X) 一 bw (64) 
= 
其 中 
bj = oe (65) 


MRES m 值 下 ,能够 得 到 一 个 足够 精确 的 级 数 , 那 么 这 种 方法 就 有 非常 的 优越 性 了 ， 

个 样本 中 的 信息 能 够 用 m 个 系数 5; 来 表示 ,显著 的 降低 了 数据 量 。 如 果 后 来 又 得 到 了 新 的 
训练 样本 ,那么 根据 公式 (65), 系 数 b, 能够 很 容易 的 就 被 更 新 ,而 同时 系数 的 个 数 却 保 持 不 
变 。W;(*) 和 Xx,(*) 都 是 关于 x 和 和 的 分 量 的 多 项 式 函 数 ,那么 对 估计 p, (x) 的 级 数 扩展 也 是 

个 多 项 式 函 数 , 而 计算 多 项 式 琐 数 是 非常 有 效 和 快速 的 。 并 且 , 使 用 这 个 估计 
p(x|m) PCw 就 很 容易 获得 多 项 式 分 类 函数 | 

然而 ,对 这 个 方法 的 局 限 性 也 应 该 进行 了 解 。 一 个 有 用 的 窗 函 数 应 具有 的 关键 特性 就 是 
在 原点 处 取得 最 大 的 峰值 ,而 随 着 离开 中 心 的 距离 增加 ,逐渐 的 衰减 。 也 就 是 说 , 函数 
Pp((X 一 Xi)/h,) 应 该 在 x 二 Xx; 处 取得 峰值 ,而 在 x 远离 x, 处 ,对 整个 p, (x) 的 贡献 应 该 十 分 小 。 
不 幸 的 是 ,多 项 式 函 数 具 有 恼人 的 无 界 性 。 这 样 ,在 多 项 式 级 数 中 ,我 们 可 能 发 现 而 在 x 远离 
x; Abp axx) /hs,) 对 p, (XxX) 的 影响 非常 大 。 因 此 ,非常 重要 的 一 点 是 ,必须 保证 每 一 个 窗 匡 
数 的 级 数 扩 展 在 所 关心 的 区 域 中 是 准确 的 ,而 这 就 需要 级 数 的 项 非常 多 。 

能 够 使 用 的 级 数 的 类 型 是 非常 多 的 。 对 积分 方程 熟悉 的 读者 很 自然 的 会 认为 公式 (62) 表 
WITKA plx,x;) 用 一 系列 特征 基 荫 数 进行 分 解 。 而 实际 上 ,我 们 不 必要 计算 特征 基 函 数 ， 
M R m BE PETE PU KR PIE CM RE FPA BEI RR) HARE. H 
至 更 加 简单 的 ,我们 还 可 以 对 窗 函 数 进 行 泰勒 级 数 逼 近 。 为 了 说 明 问 题 的 简单 起 见 ,我 们 考虑 
一 个 一 维 的 例子 ,使 用 一 个 高 斯 窗 函 数 


Ji plu) =e 
| m-l 2j 
DDE 
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这 个 展开 对 于 u=0 附近 最 精确 ;其 误差 小 于 ue" {mI o 如 果 我 们 用 u= (Xx— ZXi)/h 来 代替 z » HB 
么 我 们 就 得 到 一 个 阶 为 aon DRF r Ae, He He. 例如, 如果 m=2, A RhE 
FAR URE : 


h h 
2 l , 
= 1+ xm yi * 7 * 
这 样 
le x — Xx; 2 
Vit Pat) = — 2 vre) ~ bo + bix + box (66) 
其 中 的 系数 为 
] Lic 
p0 一 一 一 一 一 》 x? 
° h hin oy 
21e 
pi = en e” 198 
I 
b: = -73 


这 个 简单 的 级 数 扩展 把 n 个 样本 携带 的 信息 隆 为 用 3 个 系数 bo,b ,bs 来 表示 。 如 果 
e—a [的 最 大 值 不 大 于 的话 ,那么 这 样 的 通 近 就 是 准确 的 。 不幸 的 是 ,这 样 就 使 得 我 们 不 
得 不 接受 一 个 非常 宽 的 窗口 ,以 至 于 对 于 大 多 数 的 分 辩 率 来 说 都 是 无 法 接受 的 。 如 果 我 们 在 
级 数 扩展 中 引入 更 多 的 项 ,那么 能 够 减 小 窗口 的 宽度 。 如 采 我 们 记 | a | 的 最 大 值 为 r ,并 
且 利 用 Vxg((zx 一 x;)/ 有 ) 的 mm 个 项 的 级 数 扩展 的 误差 小 于 (r/h)”/m! 这 个 事实 ,那么 使 用 对 
m! 的 斯 特 林 CStirling) 近 似 ,我们 发 现 对 如 (z) 的 通 近 的 误差 为 





1 (A ] (=) (7) | (67) 

Jth m! Sth 2am |\m/ \h 
这 样 , 只 有 在 m>elr/hY 时 ,误差 才 变 得 小 。 这 就 表明 为 了 使 窗口 大 小 hh 相对 于 最 远 样 
本 上 的 距离 r 更 小 ,势必 要 求 非常 多 的 项 。 虽 然 这 个 例子 非常 简单 ,但 对 于 使 用 更 复杂 的 级 


数 扩展 的 高 维 情况 ,如果 窗口 大 小 可 以 比较 大 的 时 候 , 这 种 方法 还 是 非常 吸引 人 的 。 
本 章 小 结 


在 模式 识别 领域 的 非 参 数 佑 计 方 法 中 ,有 两 种 最 基本 的 途径 。 在 第 一 种 途径 中 ,概率 密度 
函数 得 以 被 估计 ,并 且 被 用 于 后 面 的 分 类 中 。 而 在 后 一 种 途径 中 ,并 不 估计 具 体 的 概率 密度 天 
数 , 而 是 直接 根据 样本 进行 分 类 。 第 一 种 途径 的 典型 代表 是 Parzen 窗 方 法 ,和 它 的 一 种 硬件 
实现 方式 一 一 概率 神经 网 络 (PNN) 。 而 第 二 种 途径 的 代表 则 是 上 -近邻 方法 和 几 种 松弛 网 络 。 
在 训练 样本 个 数 无 限 多 时 ,k==1 最 近邻 规则 的 误差 率 不 会 超过 理论 最 小 误差 率 一 一 贝 叶 斯 误 
差 率 的 两 倍 。 基 本 的 上 -近邻 方法 的 计算 复杂 度 非 常 大 ,通常 ,人 们 使 用 部 分 距离 , 预 建立 结 
构 ,剪辑 方法 等 等 的 手段 来 降低 计算 复杂 度 。 而 为 了 处 理 茶 些 不 变性 问题 ,人 们 提出 了 切 空 间 
距离 的 概念 ,并 且 可 以 和 k -近邻 方法 相 结 合 。 

模糊 分 类 方法 通过 使 用 对 "类 别 隶 属 度 函 数 "的 局 发 式 选择 和 尼 发 式 的 合 取 规 则 来 得 到 分 
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类 孙 数 。 然 而 这 种 技术 的 适用 范围 仅仅 局 限于 当 训 练 样本 过 少 , 或 者 特征 数量 比较 少 , 或 者 设 


计 者 的 知识 是 从 先 验 置信 得 出 的 场合 ，。 

松弛 方法 (例如 势 函数 ) 建 立 包 围 在 原型 样本 点 周围 的 “吸引 盆 ”"。 如 果 一 个 测试 样本 点 位 
于 一 个 吸引 盆 中 , 它 的 炎 别 就 被 归于 这 个 盆 所 属 的 类 别 。RCE 网 络 是 其 中 的 一 种 方法 ,这 个 
算法 调整 吸引 盆 , 以 包含 进 周围 尽 可 能 多 的 同一 类 别 的 训练 样本 点 。 


文献 和 历史 评述 


Parzen 在 文献 L31j 中 首次 提出 了 用 窗 函 数 的 方法 来 估计 概率 密度 图 数 。Nadaraya[L30 
和 WatsonL45] 最 早 把 这 一 方法 用 到 回归 法 中 。 而 SpechtL41] 把 这 一 方法 用 于 解决 模式 分 类 
的 问题 ,并 且 还 提出 了 PNN 网 络 的 硬件 结构 142j。 文 献 L13jL144] 介 绍 了 最 近邻 方法 ,但 是 15 
年 以 后 ,计算 机 的 处 理 能 力 得 到 了 大 幅度 提高 以 后 ,这 种 方法 才 被 真正 重视 起 来 ,并 得 到 了 许 
多 理论 性 的 分 析 和 探讨 , 和 用 于 实际 的 分 类 场合 。DevroyeL12j 进 一 步 发 展 了 由 Cover 和 
HartL9j 最 先 开 展 的 关于 渐进 误差 界 的 研究 。 关 于 剪辑 算法 或 前 枝 算法 的 研究 最 初 是 在 文献 
L20j 中 提出 的 ,然后 ,许多 类 似 的 算法 也 被 提出 了 ,具体 请 参见 文献 [4],[44j。 文 献 [32] 探 讨 
了 kk- 近 邻 规则。 而 文献 L35] 分 析 了 k- 近 邻 规 则 (Voronoi) 的 计算 复杂 度 , 其 中 ,利用 搜索 技术 
的 方法 ,比如 Knuth 的 经 典 研究 (文献 [26]) ,被 证 明 是 非常 有 用 的 。 关 于 降低 -近邻 规则 的 
计算 复杂 度 的 研究 工作 是 受到 矢量 量化 和 压缩 领域 的 常用 方法 的 启发 。 文 献 L18] 描 述 了 部 分 
FES AE. Friedman 对 高 维 空间 中 的 一 些 不 很 直观 的 特性 .不 直接 的 最 近邻 算法 ,等 等 问题 
L16j 进 行 过 出 色 地 分 析 。 他 和 同事 还 研究 了 分 类 时 使 用 树 形 结构 能 大 大 加 快 搜索 速度 这 一 问 
题 [17j。 文 献 L11j 中 收集 了 最 近邻 规则 分 类 的 一 些 经 典 的 论文 。 

Simard 等 人 [40j] 提 出 了 切 空间 距离 的 概念 ,而 文献 [21j 列 举 了 在 这 一 问题 上 进行 的 研究 
成 果 。Sperduti 和 Stork 等 人 [43j 提 出 了 一 种 预 建立 结构 和 新 的 搜索 准则 ,加 速 了 基于 切 空 
间距 离 的 分 类 器 的 搜索 速度 。 切 空间 虐 离 方法 的 最 大 成 功 是 在 字符 识别 上 ,但 是 也 可 以 被 用 
于 其 他 场合 ,只 要 不 变性 已 知 的 话 。 面 对 一 个 特定 的 问题 时 ,对 不 变性 的 研究 是 最 有 价值 的 。 
关于 这 方面 的 深入 研究 ,有 关 计 算 机 视觉 请 参考 文献 [29], 有 关 语 音 识 别 , 请 参考 文献 [34]。 
而 文献 L15] 给 出 了 图 像 变换 方面 的 背景 知识 。 

在 模式 识别 领域 使 用 势 函 数 方法 的 早期 工作 可 以 参考 文献 [2] 和 文献 [6j。 这 些 工 作 和 后 
来 的 许多 研究 密切 相关 ,包括 文献 [37j,[36] 所 描述 的 RCE 网 络 方法 。 

关于 频率 、 概 率 、 分 级 的 类 别 隶 属 度 等 等 概念 的 哲学 讨论 可 谓 是 由 来 已 久 [28]。 开 eynes 
提出 了 一 个 把 概率 理解 为 可 能 性 推理 的 逻辑 的 理论 ,能 够 不 依赖 于 重复 性 .频率 等 等 的 概念 。 
而 我 们 宁可 采用 传统 的 关于 概率 的 看 法 , 即 把 它 看 作假 设 和 结果 之 间 的 一 种 联系 ,而 在 模式 识 
别 中 ,这 种 联系 就 表现 在 数据 和 类 别 之 间 。 虽 然 Keynes 的 关于 概率 的 理论 [25 ] 被 作为 一 种 
公理 ,但 CoxL10j 和 JayneL234 则 寻求 一 种 正式 的 推翻 这 种 理论 的 途径 。 

在 这 场 辩论 的 许多 年 之 后 ,计算 机 科学 领域 开始 出 现 模糊 方法 这 一 概念 L46]。 文 献 [19] 
中 给 出 了 模糊 类 别 隶 属 床 和 概率 之 间 本 质 相 同 的 论述 ,而 这 一 论述 也 是 基于 Cox[10] 的 。 
Cheeseman[7 ,8] 则 提出 了 反 驱 模糊 方法 和 主观 概率 是 不 同 的 这 一 论断 。 文 献 L5],[27] 则 对 
Cheeseman 的 论点 进行 了 反 驶 。 在 文献 [3j] 中 ,读者 可 以 找到 许多 关于 模糊 方法 的 讨论 。 对 这 
些 问题 不 关心 ,或 者 不 认为 模糊 方法 比 传统 的 概率 方法 更 适合 解决 问题 的 读者 ,可 以 参考 文献 
[24j], 里 面 给 出 了 3000 多 篇 有 用 的 参考 文献 。 
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1. WEAR SRC19) 一 (22) 对 于 保证 公式 (137),(18) 的 收敛 性 是 足够 了 。 
2. 考虑 一 个 正 态 分 布 plz) ~N(pu,0°) Al Parzen A BRM G(x) ~N(0,1), PEBH Parzen 窗 


估计 





log x—X; 
pa = oo ( h, ) 
有 如 下 的 性 质 ， 
(a) p, (2) ~ Nl, +h2), 
1 


nh, MT 
一 1 fh, \’ 工 一 六 
(OXF h, 较 小 时 p(T) —po~z (| 1 (75) IZO 
注意 ,如 果 必 = 六 /yn 那么 这 个 结果 表示 由 于 偏差 而 导致 的 误差 率 以 1/n 的 速度 趋 
向 于 零 ,而 噪声 的 标准 差 以 速度 Vn 趋 于 零 。 
3. 令 pl(z)~U(0,a) 为 0 到 4 之 间 的 均匀 分 布 ,而 Parzen BMH 4 xz > 时 ， 
p(X) 二 e 7,4 r0 WAF. 
(a) 证 明 这 个 Parzen 窗 估 计 的 均值 为 


0 x <0 
>(] — e™*/hn) O<x<a 





(b) Varl p, (7) J~; p(z). 


Pr(x) = 
(er/n—l)e "n axx 


(b) ith 4 a=1, m h, 分 别 等 于 1,1/4,1/16 时 的 方 (Cz) 关 于 工 的 函数 图 像 . 
(c) 为 了 在 区 间 0 二 x<a 的 99% 处 都 有 小 于 1% 的 误差 ,那么 h 的 值 应 该 至 少 多 小 ? 
(d) 在 这 种 情况 下 ,对 于 a 二 1, 求 h, 的 值 。 并 且 画 出 区 间 0 科 z 委 0.05 的 p, (zx) 的 函数 
图 像 。 
4. 假设 在 一 个 < 类 有 监督 学 习 过 程 中 ,我 们 对 整个 分 布 p(x) 进 行 采样 ,然后 用 算法 1 来 
训练 一 个 PNN 分 类 和 需 : 
(a) 证 明 如 果 每 一 个 类 的 先 验 概率 不 同 ,因此 导致 每 个 类 别 的 样本 个 数 不 同 ,但 是 识别 
算法 本 身 能 够 弥补 这 些 问 题 。 
(b) 假 设 每 一 个 类 的 先 验 概率 相等 ,在 这 种 条 件 下 ,我 们 来 训练 PNN 网 络 。 但 是 ,我 们 
处 理 的 问题 具有 一 个 损失 和 矩阵 4; (表示 选择 类 别 ww , 而 实际 上 的 类 别 却 是 w 时 ,所 
带 来 的 风险 ) ,这 时 我 们 该 如 何 处 理 ? 
《c) 假 设 我 们 在 训练 之 前 就 已 知 损失 抢 阵 A; ,那么 如 何 训练 PNN 网 络 , 以 达到 最 小 的 
4.4 节 
5. 证 明 当 lim kt 一 cc 和 lim kn/n 一 0 时 ,公式 (30) 收 敛 到 px). 
6. D= (Xs X A n 个 独立 的 已 标记 的 样本 的 集合 。 SD (x) 一 {X 1 9 x, ) 为 样本 
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x 的 k 个 最 近邻 。 回 忆 起 根据 -近邻 规则 ,x 将 被 归 入 Di (x) 中 出 现 次 数 最 多 的 那个 类 
别 。 考 虑 一 个 2 类 别 问 题 , 先 验 概率 为 Pla) = Plo) =1/2. 进一步 假设 类 条 件 概率 
密度 pajo Dt 10 单位 超 球体 内 为 均匀 分 布 。 

(a) 证 明 如 果 k 为 奇数 ,那么 平均 误差 率 为 


| (kK—1)}/2 n 
Pile) = 5, 2 (e) 
Cb) 证 明 在 这 种 情况 下 aR 1B A Be AB A LE e ARANA ERRER, 
(OMR ME n 的 增加 而 增加 ,同时 又 受 k 二 a va 的 限制 ,那么 证 明 当 n> oR, 
P,(e) > 0, l 

4.5% 

.证 明 最 近邻 规则 中 的 Voronoi 网 格 必须 是 凸 的 。 也 就 是 说 ,对 于 同一 个 体积 中 的 两 个 
A Xi yx ,位 于 连接 着 两 个 点 的 线段 上 的 所 有 点 也 必定 位 于 这 个 体积 内 部 。 

. 容 匈 看 到 ,最 近邻 规则 的 误差 率 P 在 下 面 两 种 情况 下 等 价 于 贝 叶 斯 误差 率 ;P* =0 时 
(最 好 的 情况 ), 或 P' =el) 时 (最 坏 的 情况 )。 我 们 会 思考 在 介 于 这 两 种 情况 之 
间 时 ,有 没有 可 能 使 得 P=P*? 

(a) 证 明 在 一 维 情 况 下 , 当 PCa) =1/c 和 


~J 


Oo 


1 Osx<4 
P(x|w;) = l isxsi+l- = 
0 其 他 


时 , 贝 叶 斯 误差 率 为 P* =r. 
(b) 证 明 在 这 种 情况 下 ,最 近邻 规则 的 误差 率 P=P'.， 
9. 考虑 下 面 的 二 维 空间 的 3- 类 别 问题 . 





w w2 w3 
工 1 x? xy X7 Xl T? 
10 0 5 10 2 8 
0 —10 0 9 一 9 2 
o —2 5 5 10 —4 





Ca) M E HERRAN K o 和 w 的 决策 边界 。 计 算 样 本 均值 m Alm. 在 同 
一 张 图 上 , 画 出 如 果 把 样本 归 类 为 与 之 最 近 的 样本 均值 的 那个 类 时 的 判定 边界 。 
(b) 对 类 别 w, 和 ws ,重复 (a) 。 
(c) 对 类 别 w 和 on ,重复 (a)。 
(d) 对 类 别 w, ,ws 和 w ,重复 (a) 。 
10. 证 明 , 最 近邻 规则 的 剪辑 算法 (算法 3) 在 d 维 空间 和 个 训练 样本 的 情况 下 ,计算 复 
杂 度 为 OC d nl“) Inn) 。 
11. 为 了 更 加 深入 地 了 解 “ 维 数 灾难 ”这 一 严重 问题 ,考虑 在 高 维 的 情况 下 使 用 最 近邻 规则 
的 情况 。 假 设 我 们 有 4d 维 空间 的 x 个 训练 样本 ,试图 估计 单位 超 球体 中 的 概率 密度 函 
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BR p(x), WR p(x) 比 较 复 森 ,那么 我 们 也 需要 非常 稠密 的 样本 集 才 能 做 出 有 效 的 售 

计 。 

(abn, 表示 R 中 的 密集 样本 的 个 数 。 那 么 在 了 中 ,为 了 得 到 同样 的 密度 需要 的 样 
本 个 数 是 多 少 ? 如 果 n =100. IRAE 20 维 的 空间 中 ,需要 的 样本 个 数 是 多 少 ? 
(b) 证 明 在 R” 空间 中 ,样本 点 之 同 的 距离 都 比较 大 并 且 几 乎 相同 。 而 且 即 使 仅 包 含 

几 个 点 的 令 域 都 有 很 大 的 半径 。 

(OK Lp) EF: Ed 维 空间 中 ,包含 有 占 总 点 数 比 率 为 bp 个 点 的 超 立 方 体 的 边 长 
(ONpS)) ,并且 为 了 更 好 地 理解 这 个 值 的 实际 意义 ,计算 下 列 值 ; 1; (0. 01)， 
l (O. 1) slo CO. 01) 5 La) (0.1). 

(d) 证 明 所 有 的 样本 点 都 接近 整个 空间 的 一 个 面 ( 例 如 ,ad 维 空间 中 单位 超 立方 体 )。 
计算 从 一 个 点 到 与 之 最 近 的 那个 点 的 工 , 距 离 。 这 表明 任何 点 到 一 个 面 的 距离 都 
比 到 男 一 个 训练 样本 点 的 距离 大 。 说 明 在 这 里 为 什么 Lo PRL HEE 
合 。 这 一 结果 说 明 几 乎 所 有 的 样本 点 都 位 于 一 个 凸 包 上 (convex hull) ,或 者 是 接 
近 一 个 凸 包 , 并 且 几 乎 每 一 个 样本 点 对 于 其 他 样本 点 都 是 一 个 出 格 点 (outlier) 。 

12. 这 里 我 们 将 表明 如 果 对 特定 问题 的 模型 有 先 验 的 了 解 的 话 ,就 能 够 减轻 * 维 数 灾难 ”的 
问题 。 假 设 我 们 要 估计 下 述 形 式 的 消 数 : 
y= f(x) +N(0,0°) 


(a) 假 设 真实 的 函数 是 线性 的 , f(x) = D ax, , 且 其 通 近 为 f(x) = 5) 
当然 ,对 于 7 二 1,…,d, 拟 合 系 数 为 


d a 
j= Ti © 


n d 2 
aj = arg min 》 yi 一 ) Qj Xi; 
f 4 . 


f=] j=! 


EMEL- FOO] =d 0? / ,也 就 是 说 ,误差 随 着 的 增加 而 线性 增加 ,而 不 是 
像 “ 维 数 灾难 ”问题 中 那样 , 随 着 d 地 增加 而 指数 地 增加 。 
(b) 使 用 一 个 不 同 的 基 丽 数 集 f(z) = DaB a ,对 (a) 作 出 推广 ,其 中 的 B.Cz) 可 


以 是 任何 合适 的 函数 ,因此 ,这 个 事实 表明 基 晴 数 并 不 一 定 要 是 线性 孙 数 。 


13. 考虑 基于 具有 先 验 知识 Plo) =P(w,) =0.5 和 分 布 


Ww 


2x O<x <i 


2 — 2x O<x<] 


p(x|@2) = | 0 其 他 


HY FE AS AY ot SE ae o 

Ca) FEC BT OL T oR OLE A AP te ER | 

(b) 假 设 我 们 随机 的 从 类 别 co, 从 抽取 一 个 样本 点 ,也 从 类 别 中 抽取 一 个 样本 点 ,这 梓 来 
构造 一 个 最 近邻 规则 分 类 器 。 同 时 还 假设 我 们 从 任 一 类 别 中 抽取 一 个 测试 样本 (为 了 
明确 起 见 , 我 们 就 规定 这 个 类 别 为 类 别 w )。 用 积分 计算 误差 率 已 (e) 的 数学 期 望 。 
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(c) 问 题 的 条 件 和 假设 均 与 (b) 中 的 相同 ,积分 以 计算 误差 率 P: (e) 的 数学 期 望 。 
(d) 对 (Cb) 和 (Cc) 的 结论 进行 推广 ,对 任意 的 nn 值 , 求 P(e). 
(e) 把 lim P, (e) A Dl 叶 斯 误差 率 进 行 比较 。 

14, 使 用 概率 密度 函数 


p(x|w1) = | al? ete. < 2/3 
和 

p(x|@2) = | i? ee x<l 
重复 习题 13 。 


15. 对 算法 3 进行 细 化 ,并 且 加 进 一 个 可 选 的 用 于 加 速算 法 的 模块 。 假 设 样本 点 来 自 于 总 
FE ¢ 428 Fi ,并且 对 每 一 个 训练 样本 点 ,平均 有 kk 个 Voronoi 近邻 。 这 样 , 新 的 加 速算 
法 平均 的 加 速 比 将 是 多 少 ? 
16. 考虑 最 近邻 规则 中 的 最 简单 的 剪辑 算法 (算法 3). 
(a) 请 给 出 一 个 反例 ,证 明 这 个 算法 不 能 保证 得 到 最 小 的 样本 点 集 。( 可 以 考虑 一 个 2 
类 别 问 题 , 而 其 中 的 样本 点 都 被 限制 在 二 维 笛 卡尔 坐标 网 格 的 交点 上 。) 
(b) 设 计 一 种 串 行 的 剪辑 算法 ,每 一 个 训练 样本 点 都 被 依次 处 理 , 并 且 在 下 一 个 点 到 达 
之 前 ,或 被 保留 ,或 被 抛弃 。 并 且说 明 , 这 样 的 算法 产生 的 最 后 结果 是 否 依 赖 于 样 
本 点 的 处 理 顺 序 。 
17. 考虑 一 种 分 类 问题 ,总 共有 c 个 不 同 的 类 别 ,每 一 个 类 别 的 概率 分 布 相同 ,并 且 每 一 个 
类 别 的 先 验 概 率 都 是 PCw) 二 1/c。 证 明 公 式 (52) 所 给 出 的 误差 率 上 界 


P < P (2- c P”) 
c—l 


在 本 题 中 的 “ 原 信息 ”的 场合 下 能 够 取 到 。 
18. 推导 公式 54, 并 且说 明 你 所 需 的 假设 条 件 。 
4.6 节 
19. 考虑 d 维 空间 中 的 欧 几 里 德 距离 度量 


d 
pam er 
类 一 | 


假设 我 们 对 每 一 个 坐标 轴 都 进行 尺度 变换 ,也 就 是 说 zi 一 ak zi 一 1,2,…,d。 其 中 
a 为 非 负 的 实数 。 证 明 坐 标 变换 后 的 空间 为 一 个 度量 空间 。 并 且 讨 论 这 一 性 质 对 标 
准 的 最 近邻 规则 算法 的 重要 性 。 

20. 证 明 Minkowski 距离 度量 具有 成 为 一 种 度量 所 需要 的 全 部 4 种 性 质 。 

21. 考虑 一 种 用 于 求 xA x 的 切 空间 距离 非 递 归 的 算法 ,已 知 矩 阵 T 了 的 列 向 量 就 是 x 处 的 
r Yel TV; 
(a) 按 照 正 文中 的 处 理 , 并 对 a 参数 空间 中 的 平方 欧 几 里 德 距离 进行 求 梯度 ,得 到 求解 

最 优化 的 a 所 必需 的 方程 。 

(b) 求 这 个 方程 的 一 阶 导数 方程 ,得 到 最 优化 的 a. 
(COE DC ,*) 的 二 阶 导数 ,以 证 明 你 在 (b) 中 得 到 的 结果 是 最 小 的 平方 距离 ,而 不 是 
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最 大 值 点 或 一 个 反射 点 (inflection point), 
OMRE d 维 空间 中 有 7 个 切 向 量 ,那么 这 个 问题 的 计算 复杂 度 为 多 少 ? 
(e) 在 实际 应 用 中 (字符 识别 ) ,递归 的 算法 通常 只 需要 少数 几 次 (5 次 左右 ) 迭代 就 能 
够 得 到 结果 。 对 你 的 解析 方法 的 计算 复杂 度 和 和 迭代 方法 的 计算 复杂 度 作 一 比较 。 
22. 考 虑 一 个 有 ?个 原型 样本 点 的 切 向 量 分 类 器 情况 ,每 一 个 样本 点 是 一 个 5 xX 5 的 手写 
体 字 符 。 假 设 我 们 认为 这 个 问题 中 有 > 种 不 变性 。 那 么 对 这 样 的 切 向 量 分 类 器 ,其 空 
间 复 杂 度 (存储 器 容量 要 求 ) 是 多 少 ? 
23. 双边 (tworsided) 的 切 空间 距离 允许 原型 训练 样本 x’ 和 测试 点 x 都 能 够 得 到 变换 。 因 
此 ,如 果 工 为 X 处 的 -个 切 向 量 组 成 的 矩阵 ,S 则 为 x 处 的 r 个 切 向 量 组 成 的 矩阵 , 那 
么 ,双边 切 空间 距离 为 
Dyian (x, X) = min[|| (x + Ta) — (x + Sb) ||] 


(a) 如 同 习 题 21 一 样 ,分 别 计 算 对 参数 向 量 a 的 梯度 和 对 参数 向 量 b 的 梯度 。 

(b) 对 a 和 上 b, 设 计 递 归 算 法 中 的 更 新 规则 。 

(c) 证 明 , 对 于 a 和 b, 存 在 着 惟一 一 个 最 小 值 。 并 且 用 几何 来 进行 解释 。 

〈d) 一 种 网 归 算 法 的 实现 方式 是 , 先 逐 步 更 新 a, 然 后 逐步 更 新 b。 对 于 双向 切 空间 距 
离 分 类 器 ,应 用 这 种 方法 的 计算 复杂 上 度 是 多 少 ? 

(e) 实 际 上 ,双边 切 空间 距离 分 类 器 的 计算 复杂 度 比 (d) 中 得 到 的 结论 还 要 大 ,请 解释 
为 什么 会 产生 这 种 现象 ? 

24. 考虑 习题 23 中 所 描述 的 双边 切 空间 距离 。 假 设 我 们 被 限制 于 a 维 空间 的 n 个 原型 样 
本 点 ,每 一 个 点 都 有 由 > 个 切 向 量 组 成 的 矩阵 T, 并 且 假 设 这 些 切 向 量 之 间 线 性 无 关 。 
请 问 这 样 的 双边 切 空 间距 离 是 否 满足 成 为 距离 度量 的 4 个 要 求 , 即 非 负 性 、 自 反 性 、 对 
称 性 和 三 角 不 等 式 。 

25. 考虑 用 最 近邻 规则 对 kx 的 手写 体 字 符 的 灰 度 图 像 进行 分 类 的 计算 复杂 度 。 在 这 
里 ,我 们 不 使 用 切 空间 距离 ,而 是 在 计算 欧 几 里 德 距离 之 前 ,搜索 全 部 非 线 性 变换 的 参 
数 。 假 设 这 r 种 非 线 性 变换 的 每 一 个 需要 的 操作 个 数 为 a; k?。 为 了 简单 起 见 , 我 们 
假设 cs10。 进 一 步 假 设 为 了 测试 每 一 个 原型 样本 点 ,需要 ANS ,然后 才能 根据 欧 几 


里 德 距 离 做 出 判决 。 

(a) 给 定 一 个 经 过 变换 的 图 像 ,请 问 计算 这 个 图 像 到 一 个 已 经 存储 的 原型 样本 点 的 距 
离 需要 多 少 次 操作 ? 

(b) 每 次 搜索 需要 的 操作 次 数 ? 

Co) 假设 总 共有 个 原型 样本 点 ,请 问 对 于 这 些 变 换 , 寻 找 最 近邻 需要 多 少 次 操作 ? 


(d) 为 了 简单 起 见 ,假设 我 们 不 使 用 降低 计算 复杂 度 的 技术 (比如 剪辑 算法 ,部 分 距离 ， 
顶 建立 结构 等 );。 如 果 n 二 10' ,r==6, 每 一 个 基本 操作 耗 时 10“，s, 请 问 对 一 个 测试 
样本 图 像 进 行 分 类 需要 多 少时 间 ? 

. 这 个 问题 研究 在 使 用 “部 分 距离 方法 ”进行 搜索 时 ,r 的 取 值 对 最 近邻 规则 分 类 器 的 准 
确 率 的 影响 。 假 设 我 们 有 随机 分 布 在 4 维 (r 二 4d) 超 立方 体内 的 42 个 (n 比较 大 ) 样 本 
点 。 同 时 我 们 在 这 个 超 立 方 体内 随机 选取 测试 样本 点 x, 我 们 需要 找到 它 的 最 近邻 。 
根据 定义 ,如 果 使 用 完整 的 d 维 空间 的 欧 几 里 德 距离 计算 公式 ,那么 我 们 肯定 能 够 找 
到 最 近邻 点 。 然 而 ,为 了 降低 计算 复杂 度 ,我 们 使 用 下 述 部 分 距离 : 


2 


他) 
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2T. 


y 1/2 
D,(x, x) = (Pe -| 
i=] 
(a) 对 于 固定 的 nn 值 ,在 4==10 的 情况 下 , 画 出 使 用 部 分 距离 能 找到 真正 的 最 近邻 点 的 
概率 关于 r 的 函数 (1 三 r 三 dd) 的 图 像 。 

(b) 考 虑 > 的 取 值 对 最 近邻 规则 分 类 器 的 准确 率 的 影响 。 假 设 这 个 边 长 为 1 的 超 立 方 
体内 有 2 种 类 别 ,每 一 种 类 别 的 点 都 有 n/2 个。 假设 每 一 类 的 概率 密度 函数 都 可 
以 分 解 为 线性 斜坡 晴 数 的 积 , 这 些 函 数 在 一 边 取 得 较 高 的 值 ,而 在 男 一 边 则 为 0。 
这 样 ,类 别 w, 的 概率 密度 在 (0,0,…,0)' 处 最 大 :而 在 (1,1,…,1) 处 为 零 。 而 类 
别 ws 的 概率 密度 在 (1,1,…,1) 处 最 大 ,而 在 (0,0,…,0)' BRAS, TMI RY 
贝 叶 斯 判定 面 。 

(ce) 计算 贝 叶 斯 误差 率 。 

(d) 求 对 测试 点 x 进行 正确 分 类 的 概率 关于 r 的 函数 。 其 中 的 测试 点 x 是 根据 这 两 类 
的 概率 密度 函数 随机 选取 的 。 

(e) 如 果 2 一 10, 为 了 使 得 分 类 误差 率 小 于 1% ,那么 对 这 样 的 部 分 距离 最 近邻 规则 分 
类 器 ,r 至 少 应 该 是 多 少 ? 

考虑 在 离散 元 素 的 集合 中 常常 使 用 的 Tanimoto 距离 度量 。 

(a) 请 问 公 式 (58) 给 出 的 Tanimoto 距离 度量 是 否 满足 作为 距离 度量 的 4 个 基本 性 质 。 


D Tanimoto CS, 9 S; ) 一 mtn me 
ny, Fn mM» 
(b) 把 下 面 的 6 个 单词 看 作 一 些 字 母 的 组 合 ;pattern, pat, pots, stop, taxonomy, ele- 
| 6 
mentary。 使 用 Tanimoto 距离 度量 来 对 | ，) 一 30 种 可 能 地 两 两 组 合 进行 排序 ， 


(c) 这 6 个 模式 是 否 符合 三 角 不 等 式 ? 


4.7% 


28. 


29, 


如 果 有 人 问 你 一 杯 水 是 “ 冷 ” 的 或 者 是 “ 热 ” 的 ,然后 你 回答 水 是 “ 温 的 。 请 解释 为 什么 这 种 但 
换 概念 ”的 回答 不 必 说 明 这 杯 水 隶 属于 “ 热 ” 这 个 类 别 的 隶属 度 隔 数 是 一 个 小 于 1.0 的 值 。 

考虑 依据 长 度 和 亮度 两 种 特征 ,对 3 种 类 别 的 鱼 设计 模糊 分 类 器 。 设 计 者 认为 对 于 长 
度 特征 ,有 5 种 级 别 : 短 ,中 等 短 , 中 等 ,中 等 长 ,长 。 对 于 亮度 特征 ,有 3 种 级 别 ; 暗 ,中 
等 , 亮 。 设 计 者 使 用 三 角 函 数 

1 一 Beil x < [wi — â| 

0 其 他 

来 计算 位 于 中 间 级 别 的 特征 ,而 使 用 开 三 角 函 数 


T(x; mi, ô) = | 


1 X > [hj 
C(x, Hih) = { 1- Bt Mi basa SMi 
0 其 他 


和 其 对 称 的 版 本 来 计算 极端 情况 。 

假设 对 于 长 度 2 王 5, 我 们 有 亮度 特征 p= 二 5,p2 = 70 = 90M = 11, u = 13, OF 
KÆ 6 二 30, 我 们 有 亮度 特征 u = 30,4. =50 和 ps 二 70。 假 设 设计 者 认为 类 别 o 表 
示 “ 中 等 亮度 和 长 ”, 类 别 w 表示 “上 暗 和 短 ”, 类别 w; 表示 “中 等 瞳 和 长 ”, 而 连接 规则 
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“和 ”由 式 (61) 定 义 。 
(a) 写 出 判别 函数 的 代数 形式 。 al 
Cb) 0 FR BE — “Ph 3S HSE JR IE PR” A RK — SE RUGE IT R ERR F E MA Be 
Aly? 
(c) 对 于 测试 样本 点 x= (7.5.60)! 进行 分 类 。 
(d) 假 设 我 们 已 经 知道 (c) 中 给 出 的 分 类 结果 是 错误 的 .那么 我 们 有 没有 办 法 知道 导致 
记 老 的 原因 是 不 是 因为 类 别 隶 属 度 函 数 的 个 数 ?” 或 是 因为 这 些 函 数 的 形式 ?或 者 
是 因为 合 取 规 则 ? 


30. 根 据 Cox 公理 和 书 中 的 符号 ,证 明 , 如 果 尺 度 因子 位 于 0 到 1 之 间 , 函数 为 


Fi (a)=1—a.F,(a,b)=a X bp。 请 解释 这 样 的 卫 数 形式 使 得 根据 Cox 公理 的 任何 推 
汤 系 统 事实 上 都 等 于 概率 规则 。 


4.8 节 


31. 假设 使 用 RCE 网 络 的 标准 训练 算法 (算法 4) ,所 有 的 半径 都 被 缩减 为 小 于 1,。 证 明 


不 存在 训练 样本 点 的 子 集 ,能够 产生 同样 的 类 别 判 决 边界 。 


4.9 
32. 考虑 窗 函 数 g(x)~N(0,1) 和 概率 密度 函数 的 估计 


tø 


P. 





pa (x) = > 2 人 T) 


使 用 对 窗 PA Z KI A F Ar OR BUS RIAA E R E A A t E R A F 


2 
Xz’ ha 


€e 


(a) 证 明 对 于 归 一 化 了 的 变量 u=2/h,.m 重 的 通 近 为 
1 u22 | 
nm =e bju” 
at ie Me. 
其 中 
lol |; _» 
are yee 


Cb) it n SEAR SIE RRS u=u 附近。 证明 只 有 两 重 的 和 逼近 式 在 
两 个 点 处 具有 峰值 :wu: 十 w/w 一 1=0。 

(c) 证 明 如 果 uw。 式 1, 那 么 其 中 的 一 个 峰 就 如 我 们 所 希望 的 那样 ,位 于 usu 附近。 而 
WR wD, AAR SRE BT u=1 附近 。 

(d) 为 了 进一步 明了 (c) 的 结果 ,对 uo 一 0.01,1,10 的 情况 ,分 别 画 出 9,2 (KF u 的 
函数 图 像 ( 可 能 需要 对 纵 坐 标 进行 尺度 调整 )。 


上 机 练习 
下 面 的 部 分 练习 要 使 用 这 个 表 的 数据 。 
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wi 2 w3 

样本 X) x2 X3 Xi X2 X3 XI X2 X3 
Í 0.28 1.31 —6.2 0.011 1.03 —0.21 1.36 2.17 0.14 
2 0.07 0.58 —0.78 1.27 1.28 0.08 1.41 1.45 —0.38 
3 1.54 2.01 — 1.63 0.13 3.12 0.16 1.22 0.99 0.69 
4 —0.44 i.18 —4,32 —0.21 1.23 一 0U.1 1 2.46 2.19 1.31 
5 —0.81 0.21 5.73 —2.18 1.39 一 0.19 0.68 0.79 0.87 
6 1.52 3.16 2.77 0.34 1.96 —0.16 2.51 3.22 1.35 
7 2.20 242 -0.19  —1.38 0.94 0.45 0.60 £2.44 0.92 
8 0.91 1.94 6.21 一 0.12 0.82 0.17 0.64 0.13 0.97 
9 0.65 1.93 4,38 一 1.44 2.31 0.14 0.85 0.58 0.99 

10 —0.26 0.82 —0.96 0.26 1.94 0.08 0.66 0.51 0.88 

4.2% 


l. 


研究 一 些 概率 密度 函数 的 估计 的 特性 ， 
(a) 编 写 程 序 , 根 据 均 匀 分 布 产生 位 于 单位 立方 体内 的 样本 点 , 即 一 1/2 委 志 委 1/2, 其 
中 ;一 1,2,3。 共 产生 10 个 点。 

(b) 编 写 程 序 ,基于 这 10° 个 样本 点 ,估计 原点 附近 的 概率 密度 ,作为 边 长 为 h 的 立方 体 
体积 的 函数 。 并 且 对 于 0 二 h 志 1, 画 出 估计 的 函数 图 像 。 

(c) 佑 计 原 点 附近 的 概率 密度 ,使 用 n 个 样本 点 ,并 且 选 择 窗 使 得 恰好 包含 进 n 个 样本 
点 。 对 于 ” 王 1,2,…，,10:, 画 出 估计 的 函数 图 像 。 

(d) 编写 程序 ,产生 服从 球形 高 斯 分 布 的 概率 密度 (其 中 号 = 了 IT 并 且 以 原点 为 中 心 的 样 
本 点 。 利 用 你 的 高 斯 数据 重复 (b) 和 (c) 。 

(e) 定 性 地 讨论 在 一 致 和 高 斯 密度 两 种 情况 下 ,估计 结果 对 函数 形式 的 依赖 性 的 异同 。 


4.3 节 


2 


4. 
3. 


.考虑 对 于 表格 中 的 数据 进行 Parzen 窗 估计 和 设计 分 类 器 。 窗 函数 为 一 个 球形 的 高 斯 


函数 ,如 下 所 示 
p(X — x;)/h) x exp[—(x — x,)'(x — x;)/(2h7)] 

(a) 编 写 程序 ,使 用 Parzen 窗 估计 方法 对 一 个 任意 的 测试 样本 点 x 进行 分 类 。 对 分 类 
器 的 训练 则 使 用 表格 中 的 三 维 数据 。 同 时 令 h=1, 分 类 样本 点 为 (0. 5,1. 0,0. 0), 
(0. 31,1. 51 ,一 0. 50)‘,(—0. 3,0. 44, —0. 1). 

(b) 现 在 我 们 令 h=0.1, BB (a). | 

4 节 

考虑 不 同 维 数 的 空间 中 ,使 用 有 &- 近 邻 概率 密度 估计 方法 的 效果 。 

(a) 编 写 程 序 ,对 于 一 维 的 情况 , 当 有 n 个 数据 样本 点 时 ,进行 上 -近邻 概率 密度 估计。 对 表 
格 中 的 类 别 o 中 的 特征 zi ,用 程序 画 出 当 k 上 =1,3,5 时 的 概率 密度 估计 结果 。 

(b) 编 写 程序 ,对 于 二 维 的 情况 , 当 有 7 个 数据 样本 点 时 ,进行 -近邻 概率 密度 估计 。 
对 表格 中 的 类 别 w 中 的 特征 《zi ,xs)', 用 程序 画 出 当 k= 二 1,3,5 时 的 概率 密度 估计 
结果 。 

(c) 对 表格 中 的 3 个 类 别 的 三 维特 征 , 使 用 k- 近 邻 概 率 密度 估计 方法 。 并 且 对 下 列 点 处 
的 概率 密度 进行 估计 :( 一 0. 41, 0. 82, 0. 88):,(0.14, 0.72, 4. 1)‘,(—0. 81, 0.61, 
— 0. 38)'。 
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453 


4. 


cn 


oO 人 


T. 


编写 程序 ,构造 下 列 二 维 空 间 的 Voronoi 网 格 : 

Ga) 首先 ,解析 地 推导 出 分 割 两 个 任意 点 的 直线 方程 。 

(Cb) 如 采 已 知 茶 个 特定 的 训练 样本 集 罗 ,其 中 的 一 个 样本 点 为 xE DP。 编 写 程序 ,得 到 
形成 这 个 点 的 x 处 的 Voronoi 网 格 的 各 条 边 。 

Cc) 对 表格 中 的 类 别 w 和 ws 中 的 特征 x 和 之 ,形成 Voronoi 网 格 。 并 且 画 出 Voronoi 图 。 

(dD 编写 程序 ,对 集合 DD 中 的 全 部 数据 ,获得 类 别 判 定 界面 。 

Ce) 使 用 算法 3, 实 现 修 前 算法。 并且 对 (c) 中 的 数据 进行 修剪 ,以 得 到 一 个 紧凑 的 数据 
集合 。 

(f) 对 Ce) 中 获得 的 紧凑 的 数据 集合 ,应 用 (c) 和 (d) 中 的 程序 ,形成 Voronoi 网 格 和 判定 
界面 。 并 且 把 这 个 结果 和 使 用 全 部 数据 的 时 候 的 得 到 的 结果 进行 比较 . 


-通过 下 面 的 练习 ,深入 了 解 在 最 近邻 分 类 规则 中 ,为 了 降低 计算 复杂 度 ， 而 必须 付出 准 


确 率 代价 的 这 一 折 中 。 

(a) 编写 程序 ,从 以 原点 为 中 心 的 六 维 超 立 方 体 的 均匀 分 布 中 ,产生 zn 个 原型 样本 点 。 
使 用 这 个 程序 ,对 类 别 w ,ws ,ws 和 各 产生 10 个 样本 点 。 这 些 样本 点 的 全 体 构 
MT RAED, 

Cb) 同样 地 ,使 用 (a) 中 的 程序 ,产生 具有 n=100 各 测试 样本 的 测试 样本 集 D,。 这 些 测 
试 样本 点 也 是 服从 以 原点 为 中 心 的 六 维 超 立 方 体 的 均匀 分 布 。 

(O 编写 程序 ,实现 最 近邻 规则 分 类 算法 。 使 用 这 个 程序 ,对 测试 样本 集 D, 中 的 样本 
点 进行 分 类 。 从 现在 起 ,我们 认为 这 个 程序 得 到 的 分 类 结果 是 正确 的 ,因此 其 测试 

Cd) 使 用 部 分 距离 方法 来 加 速 最 近邻 分 类 算法 。 其 中 ,部 分 距离 的 计算 只 使 用 特征 向 
量 的 前 7 个 特征 。 我 们 定义 搜索 准确 率 为 测试 样本 集 D, 中 ,被 正确 地 找到 对 应 的 
实际 最 近邻 的 点 所 占 的 比例 。 也 就 是 说 ,如 果 > 一 6, 那 么 这 个 比例 为 100%。 对 
1] 委 r 委 6 , 佑 计 搜 索 准确 率 。 并 且 画 出 这 个 准确 率 关 于 r 的 函数 图 像 。 为 了 达到 
90% 的 搜索 准确 率 ,r 值 必须 至 少 为 多 少 ( 可 将 7 取 整 )? 

Ce) 估计 为 了 实现 这 样 的 搜索 ,计算 机 需要 的 时 间 关 于 -的 函数 。 如 果 一 个 完整 的 搜 
索 过 程 需要 耗 时 了 ,那么 T/2 需要 > 为 多 少 9 这 时 候 的 搜索 准确 率 为 多 少 ? 

CD 现在 ,假设 我 们 的 搜索 准确 率 用 分 类 准确 率 来 定义 。 那 么 对 采用 部 分 距离 的 最 近 
邻 分 类 方法 ,使 用 D, 重新 估计 分 类 准确 率 。 并 且 对 Sre 都 画 出 函数 图 像 。 

(g) 对 这 样 定义 的 准确 率 , 重 复 (e)。 如 果 一 个 完整 的 搜索 过 程 需要 耗 时 了 ,那么 了 /2 
需要 7 为 多 少 ? 这 时 候 的 搜索 准确 率 为 多 少 ? 





.6 节 
. 考虑 在 最 近邻 规则 分 类 算法 中 ,使 用 Minkowski 距离 Li ,而 k 值 又 不 相同 的 情况 : 


(a) 对 一 个 c 类 别 的 问题 ,使 用 Minkowski BR L, ,编写 程序 实现 最 近邻 分 类 器 ,其 中 
的 k 值 能 够 在 程序 运行 期 间 动 态 的 选择 。 

(b) 使 用 表格 中 的 三 维 数据 ,对 下 列 点 和 k= 二 1,2,4, 吕 的 情况 ,分 别 进 行 分 类 ， 
(2,21, 1.9, 0.43)',(—0.15, 1.17, 6.19)’,(0.01, 1.34, 2. 60), 

对 手写 体 的 字符 “4”, 建 立 10 x 10 ARERR x’, 

(a) 画 出 对 应 于 x 的 100 维 向 量 与 进行 了 水 平平 移 之 后 的 向 量 之 间 的 距离 作为 位 移 的 
函数 的 图 像 。 
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(b) 对 x 向 右 平移 两 个 像素 ,形成 切 向 量 TV 。 编 写 程序 ,使 用 这 个 TV; 计算 平移 后 的 
模式 的 切 空 间距 离 。 并 且 画 出 切 空间 距离 关于 测试 样本 的 位 移 的 困 数 。 比 较 这 些 
图 ,并 且 加 以 解释 。 

8. 把 上 题 中 的 手写 体 字 符 “4? 改 成 "7”, 重 复习 题 7 。 

4.7% 

9. 假设 为 了 描述 一 种 水 果 , 可 以 用 3 种 特征 :大 小 ,颜色 ,形状 。 并 且 可 以 用 模糊 逻辑 方法 
来 进行 分 类 。 特 别 地 ,假设 所 有 的 类 别 隶 属 度 男 数 都 是 三 角形 函数 (中 心 为 ww, 半 宽度 
为 6) ,或 者 ,在 极端 情况 ,为 左 开 或 右 开 的 三 角形 函数 。 
假设 大 小 特征 (以 cm 为 单位 ) 的 等 级 是 :小 (x= 二 2), 中 等 (y= 二 4), 大 (4 二 6) 和 超大 (y= 二 
8)。 并 且 在 所 有 情况 下 ,我们 都 假设 三 角形 肾 数 有 6 二 3。 假 设 形状 是 用 “ 圆 形 度 ” 来 找 
述 的 ,这 里 用 的 是 长 轴 和 短 轴 的 比例 。 细 长 形 (A=2,6=0.6) ,长 方形 (一 1.6,0 一 
0. 3) #4 AE (u=1.4,0=0. 2) ,球形 (wp=1.1,9=-0.2)。 假 设 这 里 的 颜色 特征 是 用 介 于 
红色 和 黄色 之 间 的 程度 来 描述 的 :黄色 (= 一 0.1,9==0.1), 桔 黄色 (wx=0.3,9=0. 3), 橙 
fi, (u=0.5,0=0. 3), tf 4 fa (u=0.7,0=0.3), MAL fi (u=0.9,6=0.3), BA E 
计 者 认为 下 列 是 对 于 普通 的 正常 水 果 的 较 好 描述 : 

ew, = MER = {小 ,球形 ,红色 ) 
ew, 一 桔子 一 (中 等 ,球形 ,橙色 ) 
。w; 一 香 态 二 {大 , 细 , 黄 色 ，} 
e w, 一 桃子 二 {中 等 ,球形 ,村 红色 } 
ow, 二 李子 二 {中 等 ,球形 ,红色 )} 
。 we 一 柠檬 一 ( 中 等, 长方形, 黄色)} 
。 迪 一 葡萄 三 (中 等 ,球形 ,黄色 )} 
(a) 编 写 程 序 ,对 任意 的 模式 加 以 分 类 。 
(b? 对 下 列 种 类 的 水 果 进 行 分 类 :{ 大 小 ,形状 ,颜色 } 三 (2.5,1.0,0.95),， (7.5，1. 9， 
0.2},{5.0,0.5,0. 4}, 
Co) (Rit St FE NA — A H BY AN OY FAN OP RE 4; 来 描述 一 一 4; 为 在 实际 类 别 为 
wo, 时 选择 了 类 别 w; 的 代价 。 假 设 代价 矩阵 为 


O11 02 2 1 
1022001 
120 10 02 

aij=]| 0 2 10 2 2 2 
200201 1 
2002 102 
1 12 2 1 2 0 


对 (b) 中 的 几 种 水 果 重 新 进行 分 类 ,使 代价 最 小 。 
4.8% 
10. 研究 松弛 网 络 。 
(a) 编 写 程序 ,对 三 维 情况 下 ,实现 RCE 分 类 器 。 令 最 大 半径 为 ,= 二 0.5。 用 表格 中 
的 3 个 类 别 中 的 数据 ,训练 这 个 分 类 器 。 对 于 这 些 数据 ,一 个 球体 被 减少 了 多 少 次 
大 小 (比如 ,如 果 同 一 个 球体 被 减 小 了 两 次 体积 ,那么 这 就 是 2 次 )? 
(b) 使 用 这 个 分 类 器 ,对 下 面 的 数据 进行 分 类 :(0. 53, 一 0. 44,1. 1), (—0, 49,0. 44, 
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1, 11) (0.51 ,一 0.21,2.15) 如 果 对 某 一 个 样本 点 的 类 别 有 二 义 性 ,那么 请 说 出 
它 最 有 可 能 的 类 别 。 
4. 9 节 
11. 考虑 基于 对 高 斯 窗 孔 数 用 泰勒 级 数 展开 的 分 类 器 。 令 k 为 二 维 高 斯 函数 中 独立 的 特 
征 的 泰勒 级 数 展开 中 xz; RANK. TE. SRR PHBE w 和 类 别 ws 中 的 
特征 zı 和 xz;。 对 于 k= 二 2,4,6, 分 别 对 3 个 样本 点 (0. 56,2. 3,0. 10)’, (0. 60,5. 1, 
0, 86): 和 (一 0.95,1.3,0.16): 进行 分 类 。 ” 








参考 文献 


[t] 


{2} 


David W. Aha, editor. Lazy Learning. Kluwer, Boston, 
MA, 1997, 


Mark A. Aizerman, Emmanuil M. Braverman, and Leo I. 
Rozonoer, The Robbins-Monro process and the method 
of potential functions. Automation and Remote Control. 
26:1882-1885, 1965. 


[14] 


tory analysis: Nonparametric discrimination: Consis- 
tency properties. USAF School of Aviation Medicine, 
4:261-279, 1951. 

Evelyn Fix and Joseph L. Hodges, Jr. Discrimina- 
tory analysis: Nonparametric discrimination: Small sam- 
ple performance. USAF School of Aviation Medicine, 


[3] Claudi Alsina, Enric Trillas, and Llorenc Valverde. On 11:280-322, 1952. 
some logical connectives for fuzzy set theory. Journal of [15] James D. Foley, Andries Van Dam, Steven K. Feiner, and 
Mathematical Analysis and Applications, 93(1):15-26, John F. Hughes. Fundamentals of Interactive Computer 
1983. Graphics: Principles and Practice. Addison-Wesley, 

[4] David Avis and Binay K. Bhattacharya. Algorithms for Reading, MA, second edition, 1990. 
computing d-dimensional Voronoi diagrams and their [16] Jerome H. Friedman. An overview of predictive learning 
duals. In Franco P. Preparata, editor, Advances in Com- and function approximation. In Vladimir Cherkassky, 
puting Research: Computational Geometry, pages 159- Jerome H. Friedman, and Harry Wechsler, editors, 
180, JAI Press, Greenwich, CT, 1983. From Statistics to Neural Networks: Theory and Pattern 

{5} James C. Bezdek and Sankar K. Pal, editors. Fuzzy Mod- Recognition Applications, pages 1-61, Springer-Verlag, 
els for Pattern Recognition: Methods that Search for NATO ASI, New York, 1994. 

Structures in Data. TEEE Press, New York, 1992. [17] Jerome H. Friedman, Jon Louis Bentley, and Raphael Ari 

[6] Emmanuil M. Braverman. On the potential function Finkel. An algorithm for finding best matches in loga- 
method. Automation and Remote Control, 26:2130- rithmic expected time. ACM Transactions on Mathemat- 
2138, 1965. ical Software, 3(3):209-226, 1977. 

[7] Peter Cheeseman. In defense of probability. In Proceed- [18] Allen Gersho and Robert M. Gray. Vector Quantization 
ings of the Ninth International Joint Conference on Ar- and Signal Processing. Kluwer Academic Publishers, 
tificial Intelligence, pages 1002-1009, Morgan Kauf- Boston, MA, 1992. 
mann, San Mateo, CA, 1985. [19] Richard M. Golden. Mathematical Methods for Neural 

[8] Peter Cheeseman. Probabilistic versus fuzzy reasoning. Network Analysis and Design. MIT Press, Cambridge, 


[9] 


[10] 


[11] 


[12] 


[13] 


In Laveen N. Kanal and John F. Lemmer, editors, Un- 
certainty in Artificial Intelligence. pages 85-102. Else- 
vier Science Publishers, Amsterdam, 1986. 


Thomas M. Cover and Peter E. Hart. Nearest neighbor 
pattern classification. [EEE Transactions on Information 
Theory, {T-13(1):21-27, 1967. 

Richard T. Cox. Probability, frequency, and reasonable 
expectation. American Journal of Physics, 14(1):1-13, 
1946. 

Belur V. Dasarathy, editor. Nearest Neighbor (NN) 
Norms: NN Pattern Classification Techniques. IEEE 
Computer Society, Washington, DC, 1991. 

Luc P. Devroye. On the inequality of Cover and Hart 
In nearest neighbor discrimination. ZEEE Transactions 
on Pattern Analysis and Machine Intelligence, PAMI- 
3(1):75-78, 1981. 


Evelyn Fix and Joseph L. Hodges, Jr. Discrimina- 


[20] 


[21] 


[22] 


[23] 


MA, 1996. 
Peter Hart. The condensed nearest neighbor rule. JEEE 
Transactions on Information Theory, IT-14(3):515-516, 


1968. 
Trevor Hastie, Patrice Simard, and Eduard Säckinger. 


Learning prototype models for tangent distance. In Ger- 
ald Tesauro, David S. Touretzky, and Todd K. Leen, ed- 
ttors, Advances in Neural Information Processing Sys- 
tems, volume 7, pages 999-1006, Cambridge, MA, 1995. 
MIT Press. 

Anil K. Jain and Madras D. Ramaswami. Classifier de- 
sign with Parzen windows. In Edzard S. Gelsema and 
Laveen N. Kanal, editors, Pattern Recognition and Arti- 
ficial Intelligence, pages 211-227. Elsevier Science Pub- 
lishers, New York, 1988. 

Edwin T. Jaynes. Probability Theory: The Logic of 
Science {unpublished manuscript), unpublished edition, 
1994. 








176 


[24] Abraham Kandel. Fuzzy Techniques in Pattern Recogni- 


[25] 


[26] 


[27] 


[28] 


[29 


krt 


[30] 


[31] 


[32] 


[33] 


[34] 


[35] 


[36] 


[37] 


tion. Wiley, New York, 1982. 


John Maynard Keynes. A Treatise on Probability. 
Macmillan, New York, 1929. 


Donald E. Knuth. The Art of Computer Programming, 
volume 1. Addison-Wesley, Reading, MA, first edition, 
1973. 

Bart Kosko. Fuzziness vs. probability. International 
Journal of General Systems, 17(2):211-240, 1990. 


Jan Lukasiewicz. Logical foundations of probability the- 
ory. In Ludwik Borkowski, editor, Jan Lukasiewicz: Se- 
lected Works, pages 16-43. North-Holland, Amsterdam, 
1970. 

Joseph L. Mundy and Andrews Zisserman, editors. Geo- 
metric Invariance in Computer Vision. MIT Press, Cam- 
bridge, MA, 1992. 

Elizbar A. Nadaraya. On estimating regression. Theory 
of Probability and Its Applications, 9(1):141-142, 1964. 
Emanuel Parzen. On estimation of a probability density 
function and mode. Annals of Mathematical Statistics, 
33(3):1065-1076, 1962. _ 

Edward A. Patrick and Frederick P. Fischer, HI. A gener- 
alized k-nearest neighbor rule. Information and Control, 
16(2):128-152, 1970. 

Witold Pedrycz and Fernando Gomide. An Introduction 
to Fuzzy Sets. MIT Press, Cambridge, MA, 1998. 


Joseph S. Perkell and Dennis H. Klatt, editors. Invari- 


ance and Variability in Speech Processes. Lawrence Erl- 
baum Associates, Hillsdale, NJ, 1986. 

Franco P. Preparata and Michael lan Shamos. Computa- 
tional Geometry: An Introduction. Springer-Verlag, New 
York, 1985. 

Douglas L. Reilly and Leon N Cooper. An overview 
of neural networks: Early models to real world sys- 
tems. In Steven F. Zornetzer, Joel L. Davis, Clifford Lau, 
and Thomas McKenna, editors, An Introduction to Neu- 
ral and Electronic Networks, pages 229-250. Academic 
Press, New York, second edition, 1995. 

Douglas L. Reilly, Leon N Cooper, and Charles Elbaum. 
A neural model for category learning. Biological Cyber- 


[38] 


[39] 


[40 


| 


[41] 


[42] 


[43] 


[44 


k 


145] 


[46] 





a 第 4 章 





netics, 45(1):35-41, 1982. 


Bernhard Schdélkopf, Christopher J. C. Burges, and 
Alexander J. Smola, editors. Advances in Kernel Meth- 
ods: Support Vector Learning. MIT Press, Cambridge, 
MA, 1999, 

Bernard W. Silverman and M. Christopher Jones. E. Fix 
and J. L. Hodges (1951): An important contribution to 
nonparametric discriminant analysis and density esti- 
mation. International Statistical Review, 57(3):233-247, 
1989. 

Patrice Simard, Yann Le Cun, and John Denker. Efficient 
pattern recognition using a new transformation distance. 
In Stephen J. Hanson, Jack D. Cowan, and C. Lee Giles, 
editors, Advances in Neural Information Processing Sys- 
tems, volume 5, pages 50-58, Morgan Kaufmann, San 
Mateo, CA, 1993. 


Donald F. Specht. Generation of polynomial discrim- 
inant functions for pattern recognition. JEEE Trans- 
actions on Electronic Computers, EC-16(3):308-319, 
1967. 


Donald F. Specht. Probabilistic neural networks. Neural 
Networks, 3(1): 109-118, 1990. 


Alessandro Sperduti and David G. Stork. A rapid graph- 
based method for arbitrary transformation-invariant pat- 
tern classification. In Gerald Tesauro, David S. Touret- 
zky, and Todd K. Leen, editors, Advances in Neural In- 
formation Processing Systems, volume 7, pages 665- 
672, MIT Press, Cambridge, MA, 1995. 


Godfried T. Toussaint, Binay K. Bhattacharya, and 
Ronald S. Poulsen. Application of Voronoi diagrams to 
nonparametric decision rules. In Proceedings of Com- 
puter Science and Statistics: The 16th Symposium on 
the Interface, pages 97-108, North-Holland, Amster- 
dam, 1984. 


Geoffrey S. Watson. Smooth regression analysis. 
Sankhyad: The Indian Journal of Statistics, Series A, 
26:359-372, 1964. 


Lotfi Zadeh. Fuzzy sets. ‘information and Control, 
8(3):338~-353, 1965. 





Ze TE FY Fill eA BH 


+ 


在 第 3 APRIRE RE R PAY BS PIB AE A, FEA AE A U RAAB RE 
密度 男 数 的 参数 值 。 在 本 章 中 ,我 们 将 直接 假定 判别 函数 的 参数 形式 已 知 , 而 用 训练 的 方法 来 
估计 淹 别 函数 的 参数 值 。 我 们 将 介绍 求解 判别 阴 数 的 各 种 算法 ,其 中 一 部 分 基于 统计 方法 ,而 
勇 一 些 不 是 。 这 里 都 不 要 求知 道 有 关 的 概率 密度 函数 的 确切 的 (参数 ) 形 式 , 从 这 种 意义 上 来 
说 ,它们 都 属于 非 参 数 化 的 方法 。 

在 这 一 章 中 ,我 们 将 关注 以 下 形式 的 判别 函数 :它们 或 者 是 x 的 各 个 分 量 的 线性 函数 ,或 
者 是 关于 以 x 为 自 变 量 的 某 些 图 数 的 线性 函数 。 线 性 判别 函数 具有 许多 优良 的 特性 ,因而 便 
干 进行 分 析 。 就 像 我 们 在 第 2 章 看 到 的 一 样 ,如 果 内 在 的 概率 密度 盟 数 恰当 的 话 ,那么 采用 线 
性 判别 函数 将 是 最 优 的 ,比如 通过 适当 的 选择 特征 提取 方法 ,可 以 使 得 各 个 高 斯 函数 具有 相等 
的 协 方差 矩阵 。 即 使 它们 不 是 最 优 的 ,我 们 也 愿意 牺牲 一 些 分 类 准确 率 , 以 换取 处 理 简 便 的 优 
瓜 。 线 性 判别 函数 的 计算 是 相当 容易 的 ,另外 , 当 信 息 比 较 缺 乏 时 ,线性 分 类 器 对 处 于 最 初 的 、 
尝试 阶段 的 分 类 器 来 说 也 是 很 有 吸引 力 的 选择 。 它 们 所 展示 的 一 些 非常 重要 的 原理 在 第 6 章 
的 神经 网 络 中 将 得 到 更 充分 的 应 用 。 

寻找 线性 判别 函数 的 问题 将 被 形式 化 为 极 小 化 准则 函数 的 问题 。 以 分 类 为 目的 的 准则 函 
数 可 以 是 样本 风险 (sample risk) ,或 者 是 训练 误差 (training error) , 即 对 训练 样本 集 进行 分 类 
所 引起 的 平均 损失 。 但 在 这 里 我 们 必须 强调 的 是 :尽管 这 个 准则 是 很 有 吸引 力 的 ,但 它 却 有 很 
多 的 问题 。 我 们 的 目标 是 能 够 对 新 的 样本 进行 分 类 ,但 一 个 小 的 训练 误差 并 不 能 保证 测试 误 
差 (test error) 同 样 的 小 这 是 一 个 吸引 人 而 又 非常 微妙 的 问题 ,我 们 将 在 第 9 章 中 进一步 
论述 这 个 问题 。 这 里 我 们 将 看 到 ,准确 的 计算 极 小 风险 线性 判别 函数 通常 是 很 困难 的 ,因此 我 
们 将 考查 一 些 有 关 的 更 易于 分 析 的 准则 函数 。 

我 们 的 注意 力 将 在 很 大 程度 上 放 在 收 钙 性 及 各 种 应 用 于 极 小 化 准则 肾 数 的 梯度 下 降 法 的 
计算 复杂 度 上 。 它 们 当中 一 些 方法 的 是 很 相似 的 ,这 使 得 清晰 地 保持 它们 之 间 的 不 同 变 得 困 
难 , 因 此 ,我 们 在 5.10 节 后 面 的 表 5-1 中 给 出 了 主要 的 结论 性 总 结 。 


5.2 线性 判别 函数 和 判定 面 


— 7 “FA Fl] PRB” Cdiscriminant function) 是 指 由 的 各 个 分 量 的 线性 组 合 而 成 的 函数 
g(x) = WX + wo (1) 
这 里 w 是 “ 权 回 量 ”(weight vector), w 被 称 为 “ 国 值 权 ”(threshold weight) H “(a # ” Cbias), 
和 我 们 在 第 2 章 所 看 到 的 一 样 ,一般 情况 下 有 oc 个 这 样 的 判别 函数 ,分 别 对 应 c 类 中 的 一 类 。 
我 们 在 后 面 将 讨论 这 样 的 情况 ,但 首先 考虑 只 有 两 个 类 别 的 简单 情况 。 
5.2.1 两 类 情况 
对 具有 式 (1) 形 式 的 判别 函数 的 一 个 两 类 线性 分 类 器 来 说 ,要 求实 现 以 下 判定 规则 :如 果 
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g(x) >0 则 判定 wi ,如 果 gO) <0 WAL Ew. HE. RAR wx 大 于 国 值 一 wo 的 话 , 将 x 


归 到 ww RZAw. WR eo 一 0, 那 么 x 可 以 被 随意 归 到 任意 一 类 ,但 是 在 本 章 我 们 将 它们 
归 为 未 定义 的 。 图 5-1 给 出 了 一 个 典型 的 系统 实现 结构 ,是 第 2 章 所 讨论 的 典型 的 模式 识别 
系统 结构 的 一 个 例子 。 


5-1 一 个 简单 线性 分 类 器 ， a(x) 
具有 d 个 输入 的 单元 ,每 个 对 应 
一 个 输入 向量 在 各 维 上 的 分 量 
值 。 每 个 输入 特征 值 志 被 乘 以 它 
对 应 的 权 w; ;输出 单元 为 这 些 乘 
积 的 和 >) wits. 因此 这 d 个 输 
人 单元 都 是 线性 的 ,产生 的 是 它 
对 应 的 特征 的 值 。 稚 一 的 一 个 偏 
差 单元 总 是 产生 常数 1.0。 如 果 
Wx-+ Wo >0 的 话 , 输 出 单元 输出 
a+ 1, 反 之 为 a 一 1 


方程 g(x) 二 0 定义 了 一 个 判定 面 , 它 把 归 类 于 wi 的 点 与 归 类 于 wz 的 点 分 开 来 。 当 g(x) 
是 线性 的 ,这 个 平面 被 称 为 “ 超 平 面 "(hyperplane)。 如 果 x. Al x 都 在 判定 面 上 , 则 


wx, + wo = WX + wo 





或 
w (x; 一 X2 ) 一 0 


这 表明 ,w 和 超 平 面 上 的 任意 向 量 正 交 。 通 常 ,一 个 超 平面 瓦 将 特征 空间 分 成 两 个 半空 间 , 即 
对 应 于 wi 类 的 决策 域 R 和 对 应 于 ws RRR... AAS x ER PH go>, PUA m 
HMB wR Ab ARR: PRT x Æ H WEN” , HAH , RRP EM BE 
HRA“ i”. 
判别 函数 g(Cx) 是 特征 空间 中 某 点 x 到 超 平 面 的 距离 的 一 种 代数 度量 。 或 许 这 一 点 最 容 
易 从 表达 式 
X =X, +r—— 


Iwill 
看 出 来 ,这 里 的 x, 是 x 在 日 上 的 投影 向 量 ,r 是 相应 的 算术 距离 一 一 如 果 为 正 , 表 示 x 在 瑟 
的 正 侧 ;如 果 为 负 , 表 示 x 在 日 的 负 侧 。 于 是 ,由 于 g(x) 二 0, 有 
g(x) = wx + wo = rllwill 
或 
0 
wil 
特别 ,从 原点 到 H 的 距离 为 wo/ | wli. WwRw>0 表明 原点 在 H 的 正 侧 ,wo <0 表明 原点 在 
Hi. Wu 二 0 ,那么 g(x) 具 有 齐 次 形式 wx, 说明 超 平 面 日 通过 原点 。 图 5-2 对 这 
些 代数 结果 给 出 了 几何 解释 ，。 
总 之 ,线性 判别 函数 利用 一 个 超 平面 判定 面 把 特征 空间 分 割 成 两 个 区 域 。 超 平面 的 方 癌 
由 法 向 量 whe CHUB ARR Be. FRM g(x) 正 比 于 x 点 到 超 平面 的 代数 距 
ACRES). 4x H EME, ga) >0,7 NN, gao. 
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图 5-2 线性 判决 边界 H ERARA g(x) 二 wx 十 wo = 二 0, 将 X3 
特征 空间 分 为 两 个 半空 间 及 1 (其 中 g(x) SNAR: axo) 





5.2.2 多 类 的 情况 


利用 线性 判别 函数 设计 多 类 分 类 器 有 多 种 方法 ,例如 ,可 以 把 c 类 问题 转化 为 c 个 两 类 问 
题 ,其 中 第 ;个 问题 是 用 线性 判别 函数 把 属于 w; 类 的 点 与 不 属于 ww; 类 的 点 分 开 。 更 复杂 一 些 
的 方法 是 用 c(c 一 1)72 个 线性 判别 函数 ,把 样本 分 为 个 类 别 , 每 个 线性 判别 函数 只 对 其 中 的 


两 个 类 别 分 类 ,如 图 5-3 所 示 。 这 两 种 方法 都 会 产生 如 无 法 确定 其 类 型 的 区 域 。 为 此 ,我 们 采 
用 在 第 2 章 采 用 的 方法 ,通过 定义 c 个 判别 函数 


Bi(X) = Wix; + wio i=l, c (2) 
图 5-3 一 个 4- 类 别 线性 判决 边界 问题 。 上 ny oren | 
图 为 w/ 非 w 二 分 面 ,而 下 图 为 w;/w —4 | | 


以 及 它们 对 应 的 判决 边界 A; 。 粉 色 区 域 是 不 





wi 
确定 区 域 i 
| not a| (5 
H Hz; Hz; An 
0 OA 
m || | ff Ah 
Pai 


rt. 
ty Ce 
A "PMS 





De 
如 果 对 一 切 ij 有 gog a, WE x JW @, 类 ;如 果 g;(x) 二 g(x), 则 拒绝 判定 。 这 样 得 到 
的 分 类 器 称 为 “线性 机 ”(linear machine) ,线性 机 把 特征 空间 分 为 c 个 判决 区 域 及 ;, 当 x 在 R; 中 |218 
时 ,g;(x) 具 有 最 大 值 。 如 果 R; 和 Rj 是 相 邻 的 , 则 它们 的 分 界 就 是 超 平面 互 ; 的 一 部 分 ,其 定义 为 


gi(x) = g; (x) 
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(Wi — w;) x + (wio — wio)=0 


我 们 立刻 得 到 ;Ww; 一 w; 是 H; 的 法 向 量 , 其 到 H; 的 距离 为 (g;(x) — g)(x))/ | WwW, Wi | o 
因此 ,对 线性 机 来 说 ,重要 的 是 权 向 量 的 差 而 不 是 权 向 量 本 身 。 这 时 应 该 有 clc 一 1)/2 个 超 平 
面 , 但 在 实际 问题 中 ,出 现在 分 界面 上 的 超 平面 的 个 数 往往 少 于 cl(c 一 1)/2, 这 可 从 图 5-4 中 看 
由 

图 5-4 分别 由 一 个 3- 类 别 问 

题 和 一 个 5- 类 别 问题 各 自 的 线 

性 机 产生 的 判定 面 





很 明显 ,线性 机 的 判决 区 域 是 凹 的 ,这 肯定 限制 了 分 类 吕 的 适应 性 和 精确 性 (参见 后 面 的 
习题 2 和 3) 。 特 别 ,每 一 个 判决 区 域 是 单 连通 的 ,这 使 得 对 那些 条 件 概率 密度 p(x|w;) 为 单 峰 
的 问题 设计 线性 机 是 很 适合 的 。 然 而 ,我 们 务必 注意 :存在 某 些 单 峰 分 布 , 它 们 的 线性 判别 盟 
数 给 出 很 好 的 结果 ,而 另 一 些 单 峰 分 布 ,它们 却 给 出 很 差 的 分 类 结果 。 


5.3 广义 线性 判别 函数 
线性 判别 函数 g(x) 可 写成 


d 
g(x) = wo + 》 wix (3) 
i=! 
ARw ERR w 的 分 量 。 通 过 加 入 另外 的 项 (w 的 各 对 分 量 之 间 的 乘积 ) ,我 们 得 到 二 次 判 


Fill K BX (quadratic discriminant function) 


d d 
g(x) = wot >> wixi + >  wixix; (4) 
i=! i j=l 

因为 zizi 一 Zizi, 不 失 一 般 性 我 们 可 以 假设 由 = 由。 由 此 ,二 次 判别 函数 就 有 另外 的 
dd 十 1)72 个 系数 来 产生 更 复杂 的 分 隔 面 。 根 据 这 样 的 g(x) =0 定义 的 分 隔 面 是 一 个 二 阶 曲 
面 的 或 者 说 是 “ 超 二 次 曲面 "(hyperquadric surface)。g(x) 中 的 线性 相关 可 通过 坐标 轴 变 换 来 
消除 。 我 们 可 以 定义 一 个 非 奇 异 的 对 称 和 矩阵 W=[v; ] ,这 样 分 类 面 的 基本 特性 就 可 描述 为 一 
个 尺度 变换 后 的 矩阵 W=W/Cw'W-Iw 一 4w)。 如 果 W 是 单位 和 矩 阵 的 正 的 倍数 ,这 个 分 隔 面 
是 一 个 “ 超 球 ”(hypersphere)。 如 果 W 是 正定 的 ,这 个 分 隔 面 是 一 个 “ 超 椭 球 ”(hyperellip- 
soid), WR W 的 本 征 值 有 正 有 人 负 ,这 个 分 隔 面 就 是 “ 超 双 曲面 "(hyperhyperboloid)( 见 了 习 
题 12)。 正 如 我 们 在 第 2 章 看 到 的 ,在 一 般 的 多 变量 高 斯 浓 数 的 情况 下 ,我 们 会 遇 到 这 些 各 种 
各 样 的 分 隔 面 。 

继续 加 入 更 高 次 的 项 (比如 wsizxizjzi) 我 们 就 得 到 多 项 式 判 别 函数 (polynomial discrimi- 
nant function) 。 这 可 看 作对 茶 一 判别 函数 g(Cz) 做 级 数 展开 ,然后 取 其 截 尾 通 近 ,这 就 意味 着 
AT X EFI Ag (generalized linear discriminant function) 


a 


AHS Bete n sla 


d 
g(x) = 》 aiyi(x) (5) 
i=] 


或 
g(x) 一 ay (6) 


这 里 a 是 d 维 权 向 量 dt TERK y,(x)( 有 时 被 称 为 p 函数 ,在 本 书 中 将 多 次 用 到 ) 可 以 是 x 
任意 的 函数 。 这样 的 函数 对 应 特征 提取 子 系统 的 结果 。 通 过 巧妙 地 选择 这 些 函 数 并 使 得 4 足 
够 大 ,就 可 以 通过 这 样 的 展开 来 逼近 任何 想 要 的 判别 函数 。 得 到 的 判别 函数 并 不 是 x 的 线性 
函数 ,但 却 是 关于 的 y 线性 函数 。d 个 函数 y;(x) 的 作用 只 是 将 d 维 的 x 空间 上 的 点 映射 到 4 维 
的 y 空间 上 的 点 。 齐 次 (homogeneous) 判 别 函数 ay 通过 变换 空间 中 一 个 通过 原点 的 超 平面 
来 进行 分 类 。 这 样 ,原来 的 问题 就 通过 从 x 到 y 的 映射 简化 为 寻找 一 个 齐 次 线性 分 类 器 。 

这 种 方法 的 优 缺 点 可 通过 一 个 简单 的 例子 来 说 明 。 考 虑 二 次 型 判别 函数 


g(x) 一 Cl 十 aox 十 G32 (7) 


1 
y= m (8) 
x 


M x Bly 的 映射 见 图 5-5。 数 据 仍 保持 固有 的 一 维 , 这 是 因为 改变 ce 将 导致 y 沿 着 一 个 三 维 
曲线 运动 。 我 们 可 立刻 发 现 如 果 当 工 是 由 服从 某 一 个 概率 密度 分 布 时 ,得 到 的 密度 函数 户 (y) 
是 退化 的 , 即 曲线 之 外 为 0, 在 曲线 上 是 无 穷 大 的 。 这 是 d>d 时 ,也 就 是 从 低 维 空间 到 高 维 空 
间 映 射 时 的 一 个 普遍 问题 。 
由 ay 二 0 定义 的 平面 户 将 y 空 间 分 成 两 个 判决 区 域 R 和 2。 图 5-6 给 出 了 当 
a 一 (一 1,1,2)' 时 的 分 类 平面 尺 ! 和 R; 及 它们 在 原始 的 z 空间 上 对 应 的 判决 区 域 尺 ， 和 RR: 。 这 个 
二 次 判别 函数 g(x) 二 一 1 十 x 十 2r 在 zx 过 一 1 或 x 之 0.5 时 是 正 的 ,所 以 R1 是 多 连通 的 。 因 此 
BRE y 空间 上 判决 区 域 是 上 号 的 ,这 并 不 表明 在 x 空间 上 也 是 如 此 。 更 一 般 的 情况 是 ,即使 y (x) 
是 个 相当 简单 的 函数 ,该 判定 面 在 引出 它 的 x 空间 上 对 应 的 判定 面 也 可 能 是 很 复杂 的 。 
图 5-5 映射 y= 二 (1,zx,x)* 把 
一 条 直线 映射 为 三 维 空间 中 的 
一 条 抛物 线 。 由 于 两 类 问题 ,在 
三 维 空间 中 ,一 个 平面 就 是 一 个 
分 隔 面 。 因 此 ,有 图 可 见 , 这 产 
生 了 原始 一 维 工 空 间 的 不 连通 
性 


这 样 就 可 得 到 三 维 向 量 y 
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图 5-6 一 个 二 维 输入 空间 x 被 一 个 多 项 式 函 数 
映射 到 yy 空间。 这 里 的 映射 是 y= 二 Xx,ys 王 Xz 及 
yaccxzizrz。 在 变换 空间 里 一 个 线性 判别 式 是 将 该 
空间 分 割 的 超 平面 。 在 超 空 间 正 侧 的 点 对 应 w 
AM AMM Fo KB, KH. Ex SH PAR: 
并 不 是 单 连通 的 





但 是 ,由 于 “ 维 数 灾难 ”问题 , 常 使 得 它 难以 得 到 实际 应 用 。 一 个 完整 的 二 次 型 判别 函数 包 
含 项 的 个 数 是 4 二 (4d 十 1) (qd 十 2)/2。 比 如 4 为 普通 大 小 时 (比如 d= 二 50) ,就 要 求 计算 大 量 的 
项 ,包括 三 阶 及 更 高 阶 的 O( 必 ) 项 。 而 且 权 向 量 a 的 4d 维 分 量 必须 由 训练 样本 计算 得 到 。 如 果 
我 们 考虑 到 4 决定 了 判别 函数 的 自由 度 , 这 又 很 自然 地 要 求 样本 数 不 少 于 此 自由 度 的 数目 ( 见 
第 9 章 )。 显 然 在 通常 的 情况 下 ,g(x) 的 级 数 展开 很 容易 就 达到 这 样 一 个 程度 :需要 的 计算 量 
和 数据 量 都 超出 了 现 有 计算 设备 的 处 理 能 力 。 但 是 正如 我 们 将 在 5. 11 节 看 到 的 ,可 通过 强制 
加 入 大 的 “边沿 ”margin) (或 训练 样本 之 辣 的 “间隔 ”“ 间 际 ”) 等 措施 来 弥补 这 个 缺点 。 在 这 
个 情形 下 ,并 不 能 从 技术 上 说 可 以 适应 所 有 自由 的 参数 。 实 际 上 ,我 们 的 处 理 基 于 如 下 的 假 
设 , 即 映射 到 高 维 空间 并 不 给 数据 附加 任何 错误 的 结构 及 相关 性 。 与 此 不 同 的 是 ,在 多 层 神经 
元 网 络 方法 中 这 个 问题 则 是 通过 使 用 对 输入 特征 的 一 个 简单 非 线性 函数 的 多 次 拷贝 来 解决 
的 ,可 参见 第 6 章 。 

虽然 对 广义 线性 判别 函数 潜在 的 好 处 并 不 容易 认识 到 ,但 是 我 们 至 少将 g(x) 写 成 了 更 方 
便 的 形式 ay, 在 线性 判别 函数 的 一 个 特例 中 有 


d 


d 
g(x) = wo + Y wizi = X wix; (9) 


i=] i=0 


设 Zo =] ,我 们 可 以 写成 


y 一 | (10) 
Xd 


这 样 的 yx 有 时 被 称 为 “ 增 广 特征 向 量 ”(augmented feature vector)。 类 似 地 ,一 个 “ 增 广 权 向 
Bt” (augmented weight vector) 可 写成 


Wo Wo 
wi 
A= = (11) 
: Ww 
Wa 


这 个 从 d BE x 空间 到 d 十 1 维 y 空间 的 映射 虽然 在 数学 上 几乎 没有 变化 ,但 却 非常 有 用 的 。 虽 然 
增加 了 一 个 弟 量 ,但 是 在 x 空间 上 的 所 有 样本 间距 离 在 变换 后 保持 不 变 。 得 到 的 y 向 量 都 在 d 
维 的 子 空间 中 ,也 就 是 x 空间 自身 。 由 ay 确定 的 超 平面 判定 面 #y 通 过 y 空间 的 原点 ,即使 它 在 x 
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空间 中 对 应 的 超 平面 可 能 处 于 任意 的 位 置 。 从 y SRB A la’yl/ lal ,或 者 是 |g(x)|/ lal. 
由 于 中 a 宇 上 wi, 此 距离 小 于 (至 多 是 等 于 ) 从 x 到 H 的 距离 。 通 过 使 用 这 种 映射 ,我 们 将 
FRANE w MARE wo 的 问题 简化 为 寻找 一 个 简单 的 权 向 量 a( 见 图 5-7)。 


图 5-7 一 个 三 维 增 广 特 征 空间 y 和 增 广 权 向 量 a i 






(在 原点 )。 满 足 ay 一 0 的 点 集 是 一 个 穿 过 y 空间 Fa PS 

原点 的 超 平面 (用 红色 表示 ) ,这 个 平面 垂直 于 a。 ies ql 

这 个 平面 在 其 原来 的 二 维 空间 中 不 一 定 穿 过 原点 el Gs 
( 即 立方 体 项 部 虚线 所 示 的 判决 边界 )。 因 此 存在 | | 
一 个 增 广 权 向 量 a, 可 以 获得 x 空间 中 任意 的 判定 | | “Eh 


线 yo=0 t 


5.4 两 类 线性 可 分 的 情况 


假设 我 们 有 一 个 包含 n 个 样本 的 集合 ,yy my 一些 标记 为 wi , 另 一 些 标记 为 os 。 我 
们 希望 用 这 些 样本 来 确定 一 个 判别 函数 g(x) Say 的 权 向 量 a。 假 设 我 们 有 理由 相信 存在 一 
个 解 , 它 产生 错误 的 概率 是 非常 小 。 那 么 一 个 很 合理 的 想法 是 寻找 一 个 能 将 所 有 这 些 样本 正 
确 分 类 的 权 向 量 。 如 果 这 个 权 向 量 存在 ,这 些 样本 就 被 称 为 “线性 可 分 ”(linearly separable) 
的 。 

对 于 一 个 样本 y; WRA ay >00 就 标记 为 wi ,如 果 ay 一 0 就 标记 为 we 。 这 样 ,我 们 可 以 
用 一 种 “规范 化 ”(normalization) 操 作 来 简化 两 类 样本 的 训练 过 程 ,也 就 是 说 对 属于 w 的 样 
本 ,用 负 号 表示 而 不 是 标记 w;。 有 了 “规范 化 ”, 我 们 可 以 忘掉 这 些 标记 ,而 寻找 一 个 对 所 有 样 
本 都 有 ay >00 的 权 向 量 a。 这 样 的 向 量 被 称 为 “分 离 向 量 ”(separating vector) ,更 正规 的 说 法 
是 “ 解 向 量 ”(solution vector), 

5.4.1 几何 解释 和 术语 

求解 权 疝 量 的 过 程 可 认为 是 确定 “ 权 空 间 ”(weight space) 中 的 一 点 。 每 个 样本 都 对 解 向 
量 的 可 能 位 置 给 出 限制 。 等 式 ay 二 0 确定 了 一 个 穿 过 权 空 间 原 点 的 超 平面 ,y 为 其 法 向 量 。 
解 回 量 一 一 如 果 存 在 的 话 必须 在 每 个 超 平面 的 正 侧 。 也 就 是 说 , 解 向 量 如 果 存 在 , 必 在 
NN 个 正 半空 间 的 交合 区 ,而 且 该 区 中 的 任意 向 量 都 是 解 向 量 。 我 们 称 这 样 的 区 域 为 “ 解 区 域 ” 
(solution region) ,注意 请 不 要 将 它 和 任何 特定 类 对 应 的 特征 空间 的 判决 区 域 相 混淆 。 对 于 二 
维 问题 . 我 们 用 图 5-8 说 明 解 区 域 的 情况 ,其 中 包含 了 规范 化 样本 和 未 规范 化 样本 。 

从 以 上 讨论 可 知 , 解 向 量 如 果 存 在 的 话 , 通 常 不 是 惟一 的 。 有 许多 方法 引入 一 些 附加 要 求 
来 对 解 向 量 进行 限制 。 一 种 可 能 的 方法 是 找到 一 个 单位 长 度 的 权 向 量 , 它 使 得 从 样本 到 分 类 
平面 最 小 距离 达到 最 大 。 另 一 种 方法 是 在 所 有 i 中 寻找 满足 ay >b 的 具有 最 小 长 度 的 权 向 
量 , 这 里 的 5 是 被 称 为 “边沿 裕 量 "(margin) 或 “间隔 ”的 正常 数 。 正 如 图 5-9 所 示 的 ,新 的 解 区 
域 位 于 由 a'y; 之 6 这 0 所 产生 的 正 半 空间 的 交 妥 区 , 它 是 在 原 解 区 之 中 , 且 它 和 原 解 区 边界 被 隔 
开 的 距离 为 6/ || yi | 。 
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图 5-8 4 个 训练 样本 
(黑色 属于 w, 红 色 属 
于 w) 和 特征 空间 的 解 
区 域 。 左边 的 图 为 原 
始 数据 ; 解 向 量 决定 的 
一 个 平面 将 模式 分 为 
两 类 。 右 图 中 红色 的 
po G& BE te Do 
如 符号 改变 了 。 现 在 
的 解 向 量 决 定 的 平面 
将 所 有 规范 化 了 的 点 
都 归 到 了 同一 侧 








图 5-9 AEREE 
区 的 作用 。 左 图 为 没 
有 容量 (5 一 0) 的 情况 、 
它 和 图 5-8 是 一 样 的 。 
右 图 是 b> 0 的 情况 , 解 
区 收缩 了 Bb/ || ydi 
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我 们 一 般 试图 在 解 区 域 的 “中 间 ” 位 置 来 寻找 解 向 量 , 这 背后 的 动机 是 一 个 自然 的 信念 ,认为 
这 样 的 解 更 能 将 新 的 测试 样本 正确 地 分 类 。 但 在 大 多 数 情 况 下 ,我 们 对 解 区 域 中 的 任何 解 都 感 
到 满意 。 而 主要 关心 的 是 任何 一 种 可 行 的 递归 算法 ,只 要 它 的 递归 过 程 能 够 不 收敛 到 边界 点 上 
即 可 。 这 个 问题 可 通过 引入 一 个 “边沿 裕 量 ”来 解决 ,比如 要 求 对 所 有 的 i 都 有 a'y; 宇 bp 二 0。 
5.4.2 梯度 下 降 算 法 

我 们 在 寻找 满足 线性 不 等 式 组 aly, >0 的 解 时 所 采用 的 方法 是 :定义 一 个 准则 函数 J (a)， 
当 a 是 解 品 量 时 ,J (a) 为 最 小 。 这 样 就 将 问题 简化 为 一 个 标量 汤 数 的 极 小 化 问题 一 一 通常 可 
用 梯度 下 降 法 来 解决 。 梯 度 下 降 的 原理 非常 简单 。 首 先 从 :个 随意 选择 的 权 向 量 a(1) 开 始 ， 
计算 其 梯度 向 量 V Ja(1)) ,下 一 个 值 a(2) 由 自 a(1) 向 下 降 最 陡 的 方向 移 一 段 距 离 而 得 到 , 即 
沿 梯度 的 负 方 向 。 通 常 a(k 十 1) 由 等 式 

alk + 1) = a(k) — n(k) VJ (a(k)) (12) 


计算 ,7 是 正 的 比例 因子 ,或 者 说 是 用 于 设 定 步 长 的 “学 习 率 ”(learning rate), fi] A BR 
得 到 的 一 个 权 向 量 序列 :最 终 收 伊 到 一 个 使 (a) 极 小 化 的 解 上 。 
算法 的 基本 形式 是 ， 











算法 1 (基本 梯度 下 降 法 ) 

1 begin initialize a, FY {fH 0, 7(+), k<—0 
2 do k<—k 十 1 

3 a<—a— 7(k)V J (a) 

4 until | 7CK)V J(a)|<9 
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5 return a 
0 end 


众所周知 ,梯度 下 降 法 存在 一 些 问题 。 不 过 ,我 们 将 能 在 构造 用 来 极 小 化 的 函数 的 同时 ， 
避免 某 些 最 严重 的 问题 。 但 我 们 将 反复 遇 到 的 是 :如 何 选择 学 习 率 7(k)。 如 果 7Ck) 太 小 , 收 
敛 将 非常 慢 ; 而 如 果 7K) 太 大 的 话 可 能 会 过 冲 Covershoot) ,甚至 发 散 (5.6. 1 节 )。 

我 们 现在 考虑 一 个 设 定 学 习 率 的 原则 性 的 方法 。 假 设 准则 函数 可 由 它 在 a(k) 附 近 的 二 
阶 展开 来 近似 : 


J(a) x J(a(k)) + VJ' (a — a(k)) + z(a — a(k))'H (a ~ a(k)) (13) 
这 里 H 是 赫 森 矩阵 , 它 是 Ja) 在 aCk) 的 二 阶 偏 导 392J]aaiaai 。 将 式 (12) 代 人 式 (13) 得 
J(a(k +1)) & Jak) 一 DIV 十 5) V HV 


由 此 推出 (见习 题 12) , ERE 
[NAA 

VJ'HVYJ 
时 ,可 使 J(a(k 十 1)) 最 小 化 ,这 里 的 H 依赖 于 a, 因此 间接 的 依赖 于 kx。 这 就 是 在 前 面 提出 的 
假设 条 件 下 的 最 优选 择 。 请 注意 如 果 准 则 函数 J (a) 在 整个 关注 的 区 域 上 是 二 次 的 话 ,H 是 不 
AR), Aon ERIK HR. 

还 有 一 个 可 供 选 择 的 方法 :忽略 式 (12) 并 选择 使 得 二 阶 展 开 式 最 小 化 的 a(K 十 1)。 这 就 
是 牛顿 算法 。 算 法 1 中 的 第 3 行 被 换 为 


a(k + 1) = a(k) -H'W/ (15) 


n(k) = (14) 


由 此 得 到 下 面 的 算法 : 


算法 2 (牛顿 下 降 法 ) 

1 begin initialize a, 阅 值 0 

2 do 

3 a—a—H 'Ẹ J(a) 
4 until |H Y J (a) |<@ 
o return a 

6 end 








(应 该 指出 ,牛顿 算法 对 于 已 讨论 过 的 二 次 误差 函数 是 可 用 的 ,但 是 对 于 将 要 在 第 6 章 中 见 到 
的 多 层 神经 网 络 的 非 二 次 误差 孙 数 则 不 能 使 用 ,) 图 5-10 给 出 了 简单 梯度 下 降 法 和 牛顿 下 降 
法 的 比较 。 

一 般 说 来 ,即使 有 了 最 佳 的 mk) ,牛顿 算法 也 比 梯度 下 降 算 法 在 每 一 步 都 给 出 了 更 好 的 
Hk, HEME 卫 为 奇异 矩阵 时 就 不 能 用 牛顿 算法 了 。 而 且 , 即 使 H 是 非 奇 异 的 ,每 
次 递归 时 计算 H 逆 和 矩阵 所 需 的 OC? ) 时 间 可 轻易 地 将 牛顿 算法 带 来 的 好 处 给 抵消 了 了。 实际 
上 ,将 zk) 设 置 为 比较 小 的 常数 ‖y 上 ,虽然 比 每 一 步 都 使 用 最 优 的 7(K) 将 需要 更 多 步骤 来 
校正 ,但 通常 总 的 时 间 开 销 却 更 少 ( 参 见 上 机 练习 1) 。 





224 
? 
2250 


226 


2 


186 es 第 5 章 


图 5-10 ”由 简单 梯度 下 降 法 给 出 的 权 同 量 列 ( 红 色 ) 和 和 由 
牛顿 (二 阶 ) 算 法 给 出 的 权 向 量 序列 (黑色 )。 即 使 都 使 用 
了 最 优 学 习 率 ,牛顿 方法 每 一 步 都 给 出 了 更 好 的 步 长 。 但 
牛顿 方法 中 求 赫 森 卫 逆 和 矩阵 额外 所 需 的 计算 带 来 的 负担 
使 得 该 方法 并 不 总 是 合理 的 ,简单 下 降 法 可 能 就 足够 了 





5.5 感知 器 准则 函数 最 小 化 


5.5.1 感知 器 准则 函数 

现在 考虑 构造 解 线 性 不 等 式 a’y, > 0 的 准则 函数 的 问题 。 最 显然 的 选择 是 令 Jays 
y, ) 为 被 a 错 分 的 样本 数 。 可 由 于 这 个 函数 是 分 段 常 数 油 数 ,对 梯度 搜索 显然 不 是 一 个 好 的 选 
择 。 一 个 更 好 的 选择 是 感知 器 准则 陨 数 (perceptron criterion function) ; 

J,(a) = > (~a'y) (16) 
yey 

这 里 的 (a) 是 被 a 错 分 的 样本 集 ( 如 果 没 有 样本 被 错 分 ,yy 就 是 空 的 ,这 时 我 们 定义 
Ja) 为 0)。 因 为 当 ay 委 0 时 ,J,(a) 是 非 负 的 (只 当 a 是 解 癌 量 时 才 为 0, 也 即 a 在 判决 边界 
上 )。 从 几何 上 可 知 ,J (a) 是 与 错 分 样本 到 判决 边界 距离 之 和 成 正比 的 。 图 5-11 给 出 了 一 个 
SH EJ, 的 简单 例子 。 

由 于 J, 梯度 上 的 第 ) 个 分 量 为 Js/aai， 从 等 式 (16) 可 知 


Vip = 2_(~y) (17) 
yey 
梯度 下 降 的 迭代 公式 为 
a(k + 1) =a(k) +(k) Ý y (18) 
ye VE 


BAY, AK a(k) 错 分 的 样本 集 。 这 样 就 得 到 了 感知 算法 


算法 3 ( 批 处 理 感 知 器 算法 ) 
1 begin initialize a,7(*) ,准则 0,k<-0 


2 do k<-k+1 
3 asat(k) >) sey, y 
4 until | 7(k) >) sey, yl <9 
9 return a 

6end 


因此 寻找 解 向 量 的 批 处 理 感知 器 算法 可 以 简单 的 叙述 为 :下 一 个 权 向 量 等 于 被 前 一 个 权 向 
量 错 分 的 样本 的 和 乘 以 一 个 系数 。 我 们 使 用 术语 “ 批 处 理 ”" 是 因为 注意 到 一 个 现象 :每 次 修正 权 
向 量 时 (通常 ) 都 要 计算 成 批 的 样本 (我 们 将 很 快 会 看 到 男 一 种 基于 单个 样本 的 方法 )。 图 5-12 
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是 一 个 简单 的 二 维 例子 ,这 个 算法 以 a(1)=0 及 k) =1 开始 求 得 解 向 量 。 现 在 我 们 将 说 明 
在 任意 的 线性 可 分 的 问题 中 ,这 个 算法 确实 可 以 得 到 一 个 合适 的 解 。 


J(a) 





图 5-11 一 个 使 用 4 个 学 习 准则 作为 权 函 数 的 线性 分 类 器 。 左 上 为 错 分 模式 的 总 数 。 右 上 是 感知 
侣 准则 ( 却 (16)), 它 是 分 段 线性 的 ,可 用 于 梯度 下 降 。 左 下 是 平方 误差 ( 式 (32)), 即 使 模式 是 非 线性 
的 ,由 于 其 具有 很 好 的 解析 特性 而 非常 有 用 。 右 下 是 具有 裕 量 的 平方 误差 ( 式 (33))。 如 果 希 望 提 高 
得 到 的 分 类 器 的 通用 性 的 话 , 可 通过 调节 裕 量 5 来 使 得 解 向 量 位 于 4=0 对 应 的 解 区 域 的 中 部 


图 5-12 在 一 个 3- 模 式 问题 中 ,感知 器 准则 J, Ca) 
被 引入 作为 权 ai 和 az 的 函数 。 权 向 量 从 0 开始 , 算 
法 相继 地 先 将 被 错误 分 类 的 模式 规范 化 ,再 把 这 些 
向 量 加 到 权 向 量 上 。 这 个 例子 中 的 序列 为 y ,ys， 
yi ,ys ,于 是 向 量 落 在 了 解 区 域 ,递归 结束 。 注 意 到 
第 二 次 修正 (用 ys ) 使 得 权 向 量 离 解 区 域 比 第 一 次 修 
正 更 远 ( 参 考 定理 5. 1) 





5.5.2 单个 样本 校正 的 收敛 性 证 明 
为 了 考察 感知 器 算法 的 收敛 性 ,我 们 从 研究 一 个 容易 分 析 的 变形 算法 开始 。 与 前 面 对 所 
有 的 样本 对 a(k) 都 进行 检查 ,并 且 校 正 被 错 分 的 训练 样本 集 y, 不同 的 是 ,我 们 考虑 对 每 一 个 
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错 分 的 样本 都 进行 纠正 。 这 样 我 们 将 顺序 考虑 输入 样本 ,一 旦 发 现 有 单个 样本 错 分 就 修正 权 


回 量 。 出 于 收敛 性 证 明 的 目的 ,只 要 每 个 样本 在 这 序列 中 都 可 以 无 限 次 的 出 现 , 这 个 序列 的 内 
在 细节 就 变 得 无 关 紧 要 了 。 做 到 这 一 点 最 简单 的 方法 是 循环 的 重复 使 用 这 些 样本 ,虽然 随机 
地 选择 通常 有 更 好 的 性 能 (5. 8.9 节 )。 由 于 我 们 需要 保存 并 可 能 重复 访问 所 有 这 些 样 本 , 批 
处 理 和 这 个 单一 处 理 的 感知 器 算法 版 本 都 不 是 在 线 运 行 的 。 

两 个 进一步 的 简化 有 助 于 说 明 这 一 点 。 首 先 , 我 们 暂时 将 注意 力 限 制 在 7Ck) 为 常数 的 情 
况 上 一 一 -这 被 称 为 “固定 增 量 法 ”(fixed-increment)。 从 式 (18) 可 知 如 果 w(t) 是 常数 时 , 它 仪 
仅 是 个 乘 数 因子 ,因此 在 固定 增 量 时 我 们 可 设 7(t) = 二 1 而 不 失 一 般 性 。 第 二 个 简化 仅仅 涉及 
下 标 。 当 样本 被 看 成 序列 输入 时 ,其 中 一 些 会 被 错 分 。 我 们 只 是 遇 到 分 类 错误 时 才 改 变 权 向 
量 , 所 以 真正 要 关注 的 只 是 被 错 分 的 样本 。 因 此 我 们 用 上 标 来 注 明 样本 ,比如 yy ,…,y: ,其 
Hy BRA yoy, 中 的 一 个 ,并 且 每 个 y 都 是 被 错 分 的 。 举 个 例子 ,考虑 循环 样本 Yi > ¥29¥3 
如 果 加 标记 的 样本 是 被 错 分 的 


4 + + 4 4 
i Yi; Y2, Y3, Yi. y2, Y3. Yi, Y2, ... (19) 
那么 序列 y ,y y sy* sy? ARRE yi o V3 9 yy，yzyyz，… 这 样 产生 一 序列 权 向 量 的 固定 增 量 
法 可 写成 


a(1) 任意 
a(k+1)=a(k)+y* k>1 


其 中 对 任何 的 k 都 有 a Cy’ <0, Kn AMRARAHRA FAME: 


(20) 


算法 4 (固定 增 量 单 样本 感知 器 ) 

l begin initialize a, k<—0 

2 do k<-Ck+1) mod n 

3 if y 被 a 错 分 类 then aa +y 
4 until 所 有 模式 被 正确 分 类 
5 

6 








return a 


end 


固定 增 量 感 知 器 算法 是 所 有 用 来 解 线性 不 等 式 系统 中 最 简单 的 一 种 。 在 几何 上 ,该 算法 
在 权 空 间 上 的 解释 是 非常 清楚 的 。 由 于 a(k) 错 分 了 y ,a(k) 就 不 在 由 ary: =0 所 确定 的 y 超 
平面 的 正 侧 。 将 yma a(x) 上 就 是 将 权 向 量 直 接 向 超 平面 移动 并 有 可 能 穿 过 这 个 超 平面 。 
不 管 是 否 穿 过 这 个 超 平面 ,新 的 内 积 a(k 十 1)y: 都 比 旧 的 内 积 ay R |y s m H E K 
此 将 权 疝 量 朝 好 的 方向 移动 ( 见 图 5-13)。 

显然 ,这 个 算法 只 在 训练 样本 是 线性 可 分 时 才 会 终 止 。 我 们 现在 证 明 只 要 样本 是 线性 可 
分 的 ,这 个 算法 就 一 定 会 终止 。 


@ 定 理 5. 1 (感知 器 算法 收敛 定理 ) 如果 训练 样本 是 线性 可 分 的 ,算法 4 给 出 的 权 向 量 
序列 必定 终止 于 某 个 解 向 量 。 

证 明 为 了 寻求 一 个 证 明 , 很 自然 地 会 尝试 证 明 每 次 校正 都 使 得 权 向 量 更 靠近 解 区 域 。 
也 就 是 证 明 如 果 a 是 任意 一 个 解 向 量 的 话 , 都 有 || aCk+1)—all 比 ‖aCk) 一 al 小。 虽然 这 并 
不 总 是 成 立 的 (参考 图 5-13 中 的 第 6 步 和 第 7 步 ) ,我 们 将 看 到 只 要 计算 了 足够 长 的 步 数 ,这 
式 子 将 成 立 。 
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图 5-13 分 别 属 于 两 类 | 2 3 

(黑色 为 wm ,红色 为 o) h J (~ = | a: a | ATN 
样本 在 增 量 特征 空间 中 ,以 Cai) 下 人 
及 一 个 增加 的 权 向 量 a。 | RE | ie: 7 | es ae 


在 固定 分 量 法 中 的 每 一 步 ， ee ee 

被 错 分 的 样本 y 用 大 黑 点 | | 

表示 。 一 个 校正 量 Aa( 正 ws = 1 
比 于 样本 向 量 y ) 被 加 到 权 à , 








向 量 中 一 一 朝向 一 个 点 ATE | Tire. 

使 得 判定 面 从 虚线 位 置 (上 | PF | | TZ | 

一 个 修正 ) 移 到 实 线 位 置 I a 1 ff | 

上 。 分 步 得 到 的 a 向 量 列 V4 | yg 

也 被 标明 出 来 ,最 新 的 点 用 Soe | 

深 色 标 明 。 这 个 例子 中 ,第 , 

9 步 就 找到 了 解 向 量 , 两 类 Bs Fi a Aana 

点 被 得 到 的 判定 面 很 好 地 4 IP Z Dr 

分 开 了 Tr t | 


Me 


ee p 


设 a 为 任意 的 解 向 量 , 则 ay 对 所 有 的 i 都 是 正 的 。 令 a 为 一 个 正 的 比例 因子 。 从 
式 (20) 得 


a(k + 1) — aa = (a(k) — aa) + yt 
因此 
la(k + 1) — all? = a(k) — all? + 2(a(k) — â) yt + ly 
由 于 尖 是 被 错 分 的 ,有 a Cy! <0, BRL 
la(k + 1) ~ aâ]? < lla(k) — wall? 一 2 全 yc + jyt? 


因为 ay% 一 定 是 正 的 , 当 “ PBA TS 2 项 将 对 第 3 项 起 支配 作用 。 特 别 是 ,如 果 设 6 为 模式 
问 量 的 最 大 的 长 度 , 即 


p? = max Ily; 11? ais 
HO 7 为 解 向 量 与 所 有 模式 向 量 最 小 的 内 积 , 即 
Aa i ii a (22) 
就 得 到 不 等 式 | 
lla(k + 1) 一 cal < |la(k) — aal|? — 2y + f? 
如 果 选 
a= É (23) 
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我 们 就 有 
la 十 D 一 call 和 ae) — aall? — 8? 
因此 每 次 校正 后 ,从 a(Ck) 到 aa 的 平方 距离 至 少 减少 了 有 民 , 且 过 了 大 步 校正 后 ， 


la(k + 1) — æâļļ? < lla(l) 一 cal — kp? (24) 
由 于 这 个 平方 距离 不 可 能 是 负 的 ,所 以 经 过 了 不 超过 k。 次 校正 后 序列 的 校正 将 终止 ,其 中 
AI2 
ko = a (25) 


由 于 一 碰 到 错 分 的 样本 就 会 发 生 一 次 校正 , 且 每 一 个 样本 在 序列 中 都 会 重复 出 现 无 限 次 ,这 样 
当 校 正 结束 时 ,得 到 的 权 向 量 一 定 把 所 有 的 样本 正确 的 分 类 。( 证 毕 ) 


ko 给 出 了 校正 的 次 数 。 如 果 a(1)= 二 0, 我 们 就 得 到 Kk。 的 特别 简单 的 表达 式 
| A 和 max |ly;{I7||all? 
= ala — Belial? i; nae (26) 
p? y? min[y;â]? 
式 (26) 中 的 极 值 说 明 问题 的 难点 本 质 上 取决 于 与 解 向 量 最 接近 正 交 的 样本 。 不 幸 的 是 还 没 解 
出 这 个 问题 之 前 ,这 个 式 子 并 不 能 给 我 们 任何 的 帮助 ,这 是 因为 边界 是 由 解 问 量 来 表达 的 ,而 
这 是 解 向 量 是 未 知 的 。 通 常 , 当 样本 基本 上 是 共 面 的 时 候 , 线 性 可 分 问题 可 以 是 出 奇 的 困难 的 
(上 机 练习 2) 。 不 管 怎 么 样 ,只 要 样本 是 线性 可 分 的 ,固定 增 量 算法 总 能 在 有 限 步 得 到 解 。 
5.5.3 一 些 直接 的 推广 
由 固定 增 量 算法 可 推广 出 一 些 相 关 的 算法 。 我 们 将 简要 的 描述 两 个 令 人 感 兴趣 的 变 体 。 
第 一 个 引入 变 增 量 xCk) 和 边沿 裕 量 5, 一 旦 a'(k)y 没 能 超出 了 5 就 进行 一 个 校正 即 改进 为 
a(1) 任意 | 
a(k +1) =a(k) +n(k)y’ kzl (27) 


X E EK Bg BS RT AE a(k)y <0, AK = 个 模式 时 算法 为 : 





算法 5 ( 带 裕 量 的 变 增 量 感知 器 ) 
1 begin initialize a, 阅 值 9, 容量 5,7C*),k<0 








2 do k<-(k+1) mod n 

3 if a’y‘ <b then a<a+y(k)y' 
4 until 对 于 所 有 kk a'y >b 

9 return a 

6 end 


可 以 证 明 当 样本 为 线性 可 分 的 时 候 ,如 果 


n(k) =O (28) 
lim > 1k) = ce (29) 
k=l 
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mo (St n(k)) 
则 aCk) 收 伍 于 一 个 解 向 量 , 它 对 所 有 的 :满足 ay >b(YM 18), KHEY C) H E HR 
或 者 它 像 1/ 一样 递减 的 话 ,7C(k) 将 满足 以 上 条 件 。 
另 一 个 有 趣 的 变形 是 针对 我 们 原来 的 梯度 下 降 算 法 J, 的: 
a(1) 王 意 

a(k + 1) = a(k) + nk)’ yey, Y (31) 
这 里 的 >, 是 被 aCk) 错 分 的 训练 样本 集 。 很 容易 看 出 ,如 果 认 识 到 y ,y ,…，,y 的 一 个 解 向 量 a 
能 正确 地 将 校正 向 量 

y=% y 


YEVE 


(30) 


正确 分 类 的 话 ,这 个 算法 就 能 得 到 解 。 
写 得 更 详细 些 的 话 ,这 个 算法 就 是 : 


算法 6 { 批 处 理 变 增 量 感知 器 ) 
l begin initialize a,»(*), k<-0 
2 do k<-C(k+1) mod n 
yi =} 
7 一 
do j—j+1 
if yj 被 错 分 类 then 把 Yj pitty, 
until j=n 
a<at(k) >) yey, y 
until 7 一 人) 
10 return a 
11 end 


Oo OO NM OF FE o 


批 处 理 梯 度 下 降 与 单 样本 算法 (算法 5) 相 比 的 优点 在 于 : 它 的 权 向 量变 化 的 轨迹 是 平滑 
的 ,这 是 因为 每 次 修正 都 使 用 所 有 被 错 分 的 模式 集 一 一 错 分 模式 中 局 部 静止 的 变量 趋 于 被 消 
除 ,而 大 尺度 的 趋势 却 不 是 这 样 。 因 此 ,如 果 样 本 是 线性 可 分 的 , 且 7(k) 满 足 等 式 428) 一 
(30) ,对 J,(*) 进 行 的 梯度 下 降 算法 生成 的 权 向 量 列 一 定 会 收敛 到 一 个 解 向 量 的 。 

令 人 感 兴趣 的 是 当 7(x) 是 正 的 常数 的 话 , 如 果 它 像 1 一 样 递减 ,或 者 像 上 一 样 递 增 , 那 
么 了 71) 就 满足 前 面 提 到 的 条 件 。 一 般 的 来 说 ,我 们 总 是 希望 7(k) 随 时 间 而 变 小 。 尤 其 是 当 
有 理由 相信 样本 集 不 是 线性 可 分 时 ,这 是 因为 它 能 降低 少数 “ 坏 " 样 本 造成 的 破坏 性 效果 。 但 
是 在 可 分 的 情况 下 ,让 人 党 得 奇怪 的 是 《是 递增 的 却 仍 能 得 到 解 癌 量 。 

这 个 现象 揭示 了 理论 和 实践 观点 上 的 一 个 不 同 之 处 。 从 理论 的 观点 来 看 ,对 任何 有 限 的 
可 分 样本 集 , 对 任意 的 初始 权 向 量 a(1) ,对 任意 非 负 的 裕 量 ,对 任意 满足 等 式 4(28) 一 (30) 的 比 
例 因子 7(%) ,都 能 得 到 解 。 而 从 实践 的 观点 来 看 ,我 们 希望 对 上 面 的 各 个 值 能 作出 明智 的 选 
择 。 以 裕 量 5 为 例 ,如 果 465 比 每 次 校正 a(k)y 时 的 增 量 Xk) Ly’ “小 得 多 的 话 , 很 显然 它 所 
起 的 作用 是 很 小 的 。 如 果 它 比 7Ck) ly I ?小 得 多 的 话 , 就 需要 好 多 次 校正 来 满足 条 件 
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aC k)y' 5b, 所 以 一 个 接近 zk) | 天 用 :的 值 通常 是 有 效 的 折 中 方案 。 除 了 OR ob WE., 
y' 分 量 的 比例 因子 对 算法 也 会 产生 很 大 的 影响 。 有 了 收敛 定理 并 不 是 说 就 不 需要 这 些 实用 的 
技术 。 

由 感知 器 算法 派生 的 一 个 比较 接近 的 算法 是 Winnow 算法 , 它 对 可 分 的 训练 数据 是 非常 
有 效 的 。 主 要 的 不 同 在 于 :感知 器 算法 返回 的 权 向 量具 有 分 量 a; (i 二 0,1,…,4d), 而 在 Win- 
now 算法 中 它们 是 正比 于 2sinhLa;j 的 。 其 中 有 一 种 叫做 “平衡 Winnow 算法 ”, 它 有 “ 正 的 ”和 
“ 负 的 ” 权 向 量 a+ 和 a ,每 一 个 对 应 于 要 学 习 的 两 类 中 的 一 类 。 当 且 仅 当 训练 模式 w 被 错 分 
时 才 对 正 权 向 量 进行 校正 ;相反 地 , 当 且 仅 当 训练 样本 被 ws 错 分 时 才 对 负 权 向 量 进 行 校正 。 


算法 7 (平衡 Winnow 算法 ) 


1 begin initialize a~ ,a ,7(°),k<0,a>1 








2 if Sgnla™ y, 一 a ~y, Az (模式 被 错 分 类 ) 

3 then if z, = 十 1 then ar -a ”ar 3a; a "a; 对 于 所 有 1 
4 if z,=—1 then af a a? 3a; ata; 对 于 所 有 ?i 
5 returna ,a 

6 end 


这 种 Winnow 算法 主要 有 两 个 优点 。 第 一 个 是 在 训练 过 程 中 ,两 个 候选 权 向 量 分 别 朝 各 
自 的 恒定 的 方向 运动 ,这 表明 对 于 可 分 数据 ,由 这 两 个 向 量 确 定 的 “间隔 ”的 大 小 是 始终 不 会 变 
大 的 。 由 此 可 以 推导 出 收敛 性 证 明 , 尽 管 推导 过 程 更 加 复杂 ,但 是 它 的 收敛 性 比 感知 右 收 敛 定 
理 还 要 更 一 般 化 (参见 相关 文献 ;。 第 二 个 优点 是 它 通常 比 感知 器 收敛 算法 收敛 得 更 快 ,这 是 
因为 通过 设 定 适当 的 学 习 率 ,每 个 权 向 量 分 量 的 训练 都 不 会 发 生 过 冲 。 这 一 点 在 有 大 量 不 相 
关 或 元 余 特 征 的 情况 下 尤其 明显 (上 机 练习 6). 


5.6 松弛 算法 


我 们 已 经 看 到 利用 最 小 化 式 (16) 的 感知 器 准则 函数 可 以 训练 一 个 线性 分 类 器 。 本 节 将 推 
广 这 个 作法 ,提出 所 谓 的 “松弛 算法 ”(relaxation procedure) ,能 适应 更 普通 的 准则 函数 及 其 最 
小 化 算法 。 
5.6.1 下 降 算法 

准则 函数 J,(*) 决 不 是 我 们 所 能 构造 的 当 a 为 解 向 量 时 取 极 小 值 的 惟一 的 准则 函数 形式 。 
另 一 个 相似 而 又 截然 不 同 的 是 

Jp(a) = 》 (a'y) (32) 
yey 

这 里 的 y(a) 仍 然 表 示 被 a 错 分 的 训练 样本 集 。J。 和 J 只 关注 被 错 分 的 样本 。 主 要 的 区 别 在 
FJ, 的 梯度 是 连续 的 ,而 J, 的 梯度 却 不 是 。 因 此 J 给 出 一 个 更 平滑 的 表面 来 进行 搜索 
(图 5-11) 。 不 幸 的 是 J, 在 解 区 边界 是 如 此 的 光滑 , 权 向 量 序 列 可 能 会 收敛 到 边界 上 的 一 点 。 
花 了 好 多 的 时 间 得 到 的 却 仅仅 是 边界 上 的 点 a0, REE AMM. J, 的 另 一 个 问题 
是 它 得 到 的 值 可 能 依赖 于 模 值 最 大 的 样本 向 量 。 所 有 这 些 问 题 均 可 由 以 下 准则 函数 来 避免 ， 


] (a'y — b)* 
Ja=>5 > (33) 
yey 





Iyl? 
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这 里 的 y(a) 是 满足 ay 委 2 的 样本 集 。 如 果 y(a) 是 空 的 话 ,我 们 定义 护 AO. REJ DRE 
是 负数 的 , 当 且 仅 当 对 所 有 的 训练 样本 部 有 ay 宇 5 时 才 有 J,(a) 为 0。J 的 梯度 由 


v= 5 2? 





一 了 
yoy Iyi 
给 出 ,得 到 改进 的 方法 : 
任意 ba (34) 
alk + 1) = a(k) + nk) È yey FY ? 
这 样 松 弛 算法 (relaxation procedures) WŒ: 
算法 8 ( 批 处 理 裕 量 松弛 算法 ) 
| begin initialize a,»(*),b,k<—0 
2 do kx-(k+1)mod n 
3 yr = tt} 
4 j<0 
5 do j«-j+1 
6 if ay <6 then 把 y 加 进 y， 
7 until ; =n 
b—: t 
8 a<-a+ 7(k) > Ty ped 
9 until Y, = {} 
10 return a 
11 end 


MAE BOTT AS KAS PEAR AC A A — i BT ER DE HB 
全 的 ,就 像 单 样 本 算法 和 批 处 理 相 比较 一 样 。 我 们 仍 只 考虑 固定 增 量 的 情况 Cd) 
我 们 还 是 只 需 考虑 那些 会 引起 权 向 量 校 正 的 样本 序列 y ny? ,…。 这 个 类 似 于 式 (33) 的 单 样本 
校正 法 就 是 
a(1) 任意 
a(k + 1) = a(k) + ne y 


这 里 的 x 是 所 有 满足 a (k)y 志 5 的 k。 算 法 就 是 : 


(35) 


算法 9 ( 单 样本 裕 量 松弛 算法 ) 


| begin initialize a,7(+) , k<-0 








2 do k<-(k+1)modn 
— Qt yk 
3 if a'y <b then a<-a+ 7( ny 
4 until a'y >b 对 于 所 有 y 
9 return a 


0 end 
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这 就 是 所 谓 的 “ 单 样本 裕 量 松弛 算法 ”, 它 在 几何 上 有 一 个 简单 的 解释 。 值 
b — al (k)y* 

lly* | 
是 a(k) 到 超 平面 ay =b 的 距离 。 由 于 y/ iy | 是 超 平面 的 单位 法 向 量 , 式 (35) 将 al BE 
平面 ,移动 的 量 为 从 alk) 到 超 平面 距离 乘 以 一 个 因子 7。 如 果 w=1,a(k) 就 移 到 超 平面 上 了 ,所 
以 由 不 等 式 a Oy b 产生 的 张力 被 “松弛 ”了 (图 5-14) 。 由 式 (35) 可 知 经 过 一 步 校正 后 ， 

a'(k + l)y* — b = (1 — n)(a'(k)y* — b) (37) 

如 果 ?<1 ,那么 a(k 十 1)y 仍 然 小 于 5, 如 果 >l BBA a Ck + Dy KF 6, 3 LOE) BBE 
为 * 欠 松弛 ”和 “过 松弛 ”。 通 常 我 们 把 7 了 限定 在 0<7<2( 图 5-14 和 图 5-15) 。 

图 5-14 ”在 基本 松弛 算法 的 每 一 步 里 , 权 向 量 都 向 a y y2 

=b 所 确定 的 超 平面 移动 了 它们 之 间距 离 的 7 售 


r(k) = (36) 





hh 





图 5-15 左 图 , 欠 松 弛 (7<1) 时 ， Pa 
下 降 是 不 必要 地 慢 ,甚至 不 收敛 sa ~~ 

过 松弛 (1<<7<2) 描 述 的 是 校正 过 d 
度 , 不 过 最 终 还 是 会 收敛 的 \ bes 


5.6.2 收敛 性 证 明 

把 松弛 法 应 用 在 线性 可 分 样本 上 时 ,所 需 校正 的 次 数 可 能 是 也 未 必 有 限 。 假 如 是 有 限 的 ， 
我 们 当然 可 以 得 到 一 个 解 向 量 。 如 果 不 是 有 限 的 ,我 们 将 看 到 a( 上 收敛 于 解 区 域 边界 上 有 限 
的 一 个 向 量 上 。 这 是 因为 当 0>>0 时 , a'y 之 b 对 应 的 区 域 是 包含 在 一 个 更 大 的 由 ay>0 确定 
的 区 域 , 这 表明 a(k) 将 进入 这 个 更 大 的 区 域 至 少 一 次 ,这 样 在 某 个 有 限 的 ko 之 后 ,所 有 比 它 大 
的 k,a(k) 都 将 落 在 这 个 区 域 上 。 

证 明 依赖 这 样 一 个 事实 ;如 果 a 是 解 区 域 中 的 任意 一 个 向 量 ( 比 如 任何 对 所 有 i 都 满足 
a‘y; >b) ,那么 每 个 a(k) 都 更 加 地 接近 a。 从 式 (35) 立 刻 就 可 以 得 到 这 一 点 ,因为 


(b — a'(k)y*) 、 


la(k + 1) — âl? = lla(k) — âll? — 2n y A ayy" 


(38) 
2 (b — al (k)y*)? 


lly* II? 
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H 
(a — a(k))'y* > b — al (k)y* 20 (39) 
所 以 


(b — al (k)y*)? 
ly* 112 


由 于 我 们 将 7 限制 在 0 二 7<2 中 ,就 一 定 有 a(k 十 1) 一 a s i a(k) 一 a 上 。 因 此 向 量 序 
Fj a(l) ,a(2) ,… 越 来 越 靠近 a, 并 在 趋向 无 穷 大 时 ,距离 | accoa | 到达 一 个 有 限 的 距离 
r(a) ,这 表明 趋向 无 穷 大 时 ,a(k) 将 被 限制 在 以 a 为 中 心 ,r(a) 为 半径 的 一 个 超 球 的 表面 上 。 
由 于 这 对 所 有 在 解 区 域 中 的 a 都 成 立 , 所 以 aGCk) 的 极限 就 在 以 所 有 这 些 可 能 的 解 向 量 为 中 心 
的 超 球面 的 交集 上 。 

我 们 现在 来 证 明 这 些 超 球面 的 公共 交集 是 在 解 区 域 边界 上 的 一 个 点 。 首 先 假设 至 少 有 两 
个 点 a 和 a 为 公共 交集 上 的 点 。 那 么 对 解 区 域 上 所 有 的 a 都 有 上 a 一 a 上 = 二 上 a 一 a 。 但 是 
这 又 表明 解 区 域 是 在 与 a 和 a’ 等 距离 的 (4 一 1) 维 的 超 平面 上 , (4 一 1) 维 是 因为 解 区域 是 4 维 
的 。 (严格 地 说 ,如 果 对 所 有 的 ;有 ayi 盖 0, 那 么 对 所 有 4 维 的 向 量 v, 当 足够 小 时 ,对 i 二 1,2， 
…,n 都 有 (a 十 Ev)'y>0)。 因 此 ,al(k) 收 敛 到 单个 点 a 上 。 这 个 点 当然 不 在 解 区 里 ,这 样 序列 
就 是 有 限 的 。 它 也 不 在 解 区 外 ,因为 每 次 校正 都 使 得 权 向 量 移动 了 到 边界 距离 的 了 倍 ,这 样 就 
防止 回 量 永 远 地 远离 边界 ,所 以 极限 点 一 定 在 边界 上 。 


5.7 不 可 分 的 情况 


当 样 本 是 线性 可 分 的 时 候 , 感知 器 法 和 松弛 法 给 了 我 们 许多 寻找 分 类 向 量 的 简单 方法 。 
这 些 都 被 称 为 “误差 校正 方法 ”(error-correcting procedure) ,这 是 因为 它们 只 在 遇 到 错 分 样本 
时 才 对 权 回 量 进 行 校 正 。 它 们 对 可 分 问题 的 成 功 之 处 在 于 对 求 得 一 个 无 错 解 进行 坚持 不 懈 的 
搜索 。 实 际 上 只 有 在 有 理由 认为 最 优 线性 判别 函数 的 误差 率 比 较 低 的 时 候 才 会 考虑 使 用 这 些 
方法 。 

当然 ,即使 对 训练 样本 的 分 离 向 量 已 经 找到 ,也 不 能 保证 它 对 独立 的 测试 数据 都 能 很 好 地 
分 类 。 我 们 感觉 有 种 直觉 印象 , 它 表 明 数 目 少 于 2 qd 的 样本 集 很 可 能 是 线性 可 分 的 一 一 我 们 会 
在 第 9 章 再 次 考察 这 一 点 。 因 此 有 人 可 能 会 想到 :对 设计 好 的 样本 集 使 用 多 次 ,综合 多 种 因素 
来 获得 分 类 器 ,并 由 此 确保 它 在 训练 和 实际 数据 上 的 分 类 性 能 是 相同 的 。 不 幸 的 是 ,如 果 使 用 
非常 多 的 数据 的 话 , 它 们 往往 不 是 线性 可 分 的 。 这 样 , 当 样 本 不 是 线性 可 分 时 了 解 “误差 校正 
方法 ”的 效果 如 何 就 变 得 非常 重要 了 。 

由 于 不 存在 可 以 将 不 可 分 数据 集中 的 样本 都 能 正确 分 类 的 权 向 量 ( 由 定义 可 知 ) ,显然 误 
差 校正 过 程 永远 不 会 结束 。 这 些 算法 都 将 产生 一 个 无 限 的 权 向 量 序列 ,所 有 的 成 员 都 有 可 能 
或 者 不 可 能 得 到 有 用 的 “ 解 ”。 在 一 些 特殊 的 例子 中 ,这 些 算法 在 不 可 分 的 情况 下 的 行为 被 全 
面 的 研究 过 。 比 如 ,固定 增 量 算法 得 到 的 权 向 量 的 幅 值 总 是 有 界 的 。 从 经 验 上 得 知 , 校 正 过 程 
的 终止 取决 于 权 向 量 的 茶 个 极限 点 附近 时 其 幅 值 波 动 的 趋势 。 从 理论 的 观点 来 看 ,如 果 样 本 
的 分 量 是 整数 值 的 话 , 固 定 增 量 算法 将 产生 一 个 有 限 状 态 过 程 。 如 果 校 正 过 程 停 在 任意 一 个 
状态 上 , 权 疝 量 可 能 正 处 于 ,也 可 能 不 处 于 好 的 状态 上 。 如 果 对 校正 算法 得 到 的 权 向 量 求 均值 
的 话 , 就 可 以 降低 偶然 选 到 处 于 不 好 状态 上 的 坏 向 量 的 风险 。 

有 许多 类 似 的 启发 式 规则 被 用 于 修改 误差 校正 算法 ,并 进行 了 实验 研究 。 修 改 的 目的 是 


la(k + 1) — All? < lla(k) — All? — n(2 — n) (40) 





[239) 
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在 不 可 分 的 问题 中 得 到 令 人 接受 的 结果 ,同时 保持 它 对 可 分 问题 仍 能 正确 分 类 的 性 质 。 最 普 


通 的 想法 是 使 用 变 增 量 Xk) , 且 当 k 趋 向 无 穷 大 时 Xk) 趋 向 0。7( 有 ) 趋 各 0 的 速度 是 相当 重 
要 的 。 如 果 它 太 慢 的 话 , 得 到 的 结果 对 那些 使 得 集合 为 不 可 分 的 样本 仍然 敏感 。 如 果 太 快 , 权 
向 量 在 还 没 得 到 最 优 结果 的 时 候 就 收 僵 了。 一 种 选择 7 的 方法 是 令 它 为 当前 性 能 的 困 数 ， 
也 即 当 性 能 提高 的 时 候 减 小 7k) 。 另 一 种 方法 是 选择 7Ck) = 二 7(1)/k。 当 研究 “随机 副 近 ” 技 
术 的 时 候 , 我 们 发 现 后 一 种 方法 是 一 种 类 似 问 题 的 理论 解 。 但 在 展开 这 个 主题 之 前 ,我 们 先 考 
虑 一 种 在 可 分 和 不 可 分 情况 下 都 有 很 好 性 能 的 折 中 方法 , 它 不 再 试图 直接 获取 “分 离 问 量 ”。 


5.8 最 小 平方 误差 方法 


我 们 已 经 考虑 的 准则 函数 都 将 注意 力 放 在 被 错 分 的 样本 上 。 现 在 我 们 考虑 一 种 包含 所 有 
样本 的 准则 函数 。 前 面 我 们 是 寻找 一 个 使 得 所 有 内 积 ay 都 为 正 数 的 权 向 量 ,现在 我 们 尝试 
使 得 a'y =b: 的 情况 ,这 里 的 6; 是 一 些 任意 取 定 的 正常 数 。 因 此 我 们 就 将 线性 不 等 式 求解 的 
问题 改 为 更 强 的 ,但 也 更 容易 理解 的 问题 , 即 线性 方程 组 的 求解 。 

5.8.1 最 小 平方 误差 及 伪 逆 

线性 方程 组 可 用 抢 阵 来 简化 表达 。 其 中 Y 为 Xda 矩阵 Cd 一 4 十 1), 它 的 第 ; 行 是 向 量 Y， 

而 6 是 列 向 量 b= (b ,56;,… ,6b,)*。 我 们 的 问题 化 为 找到 一 个 权 癌 量 a, 它 满足 


Yio Yu cc’ Yid ag bı 
yoo ya e Yad ay bz 
ad 一 
ynr0 Yni °'° Ynd bn 
即 
Ya=b | (41) 


如 果 Y BSE HA RTLA: a =Y b., A YE-—-*+KAPHHE ,通常 是 行 比 列 多 。 
当 方 程 数 多 于 未 知 数 时 ,a 是 超 定 的 ,通常 没有 精确 的 解 。 但 是 我 们 可 以 寻找 一 个 权 疝 量 at 
使 得 某 个 关于 Ya A b 的 函数 最 小 化 。 如 果 我 们 定义 一 个 误差 疝 量 | 

| e= Ya-—b (42) 
那么 就 提出 一 个 使 得 误差 向 量 长 度 的 平方 最 小 化 的 方法 。 这 就 是 最 小 化 误差 平方 和 的 准则 区 
数 (MSE) 


J,(a) = [Ya — bl = $ (a'y: — b}? (43) 
i=] 


误差 平方 和 最 小 化 问题 是 个 经 典 问题 。 它 可 用 梯度 搜索 法 来 解决 ,就 像 我 们 将 要 在 后 面 
要 看 到 的 (5. 8. 4 节 )。 一 个 简单 的 形式 相近 的 解 可 通过 计算 梯度 


VJ, = 》 2(a'y; — bi)y: = 2Y' (Ya — b) (44) 


i=] 


并 令 它 为 0 来 获得 。 这 就 得 到 必要 条 件 
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Y’ Ya = Y'b C45) 
这 样 ,我 们 把 解 Ya=b 的 问题 转化 为 解 YYa=Y'b。 这 个 著名 的 等 式 具有 的 最 大 优点 是 2 Nd 
Abe YY 是 个 方 阵 , 并 且 通 常 是 非 奇 异 的 。 当 它 是 非 奇异 的 时 候 , 我 们 可 以 得 到 惟 - 的 解 
a = (Y'Y)-!Y'b 
_ ytp (46) 
这 里 的 dx ”和 矩阵 
Y=(YY Y CED [340] 
REA Y B DEER”. 注意 到 如 果 Y BARA RIERA PRR Y 的 道 年 
阵 。 还 应 该 注意 到 Y Y=I, 但 通常 YY 天 I。 然 而 ,最 小 平方 误差 (MSE) 的 解 总 是 存在 的 。 特 
别 是 ,如 果 YY 被 定义 为 更 一 般 的 形式 
Y' = lim(Y'Y +ED™'Y!’ | (48) 


可 以 证 明 这 个 极限 总 是 存在 的 , 且 a 一 Yib 是 Ya 一 b 的 一 个 MSE 解 。 

MSE 解 是 由 b 决定 的 ,我 们 将 会 看 到 b 的 不 同 选择 给 解 带 来 不 同 的 性 质 。 如 果 b 是 任意 
一 个 固定 的 值 ,没有 理由 相信 MSE 的 解 在 线性 可 分 情况 下 能 得 到 一 个 分 类 向 量 。 但 我 们 却 
有 理由 希望 通过 最 小 化 平方 误差 准则 函数 ,能够 得 到 一 个 在 可 分 和 不 可 分 情况 下 都 是 很 有 用 
的 判别 郴 数 。 下 面 我 们 将 研究 解 的 两 个 性 质 来 支持 这 个 希望 。 


例 1 用 伪 逆 矩阵 构造 线性 分 类 器 
假设 我 们 有 下 图 中 分 别 用 黑色 和 红色 表示 的 分 属 两 类 的 二 维 点 四 :(1,2)” 和 (2,0) 及 
ws: (3,1) 和 (2,3)'。 








l 
4 个 训练 点 和 判决 边界 a [sa a 是 通过 伪 逆 法 求 得 的 。 因 此 YY 矩阵 为 


T? 
1 1 2 7 
1 2 0 241| 
Y=] a -3 -1 o 
—} -2 -3 


经 过 几 步 简单 的 计算 得 到 伪 逆 矩阵 
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| 5/4 13/12 3/4 7/12 
Y = (VY) 'Y' = | —1/2 -1/6 -1/2 —1/6 
0 —1/3 0 -1/3 
我 们 随意 地 令 所 有 的 裕 量 都 相等 一 一 也 就 是 b=(1,1,1,1)*。 得 到 解 a 二 Y' b=(11/3,—4/3, 
一 2/3)', 并 由 此 得 到 如 图 所 示 的 判决 边界 。 选 择 其 他 的 b 当然 会 得 到 不 同 的 判决 边界 。 


5.8.2 5 Fisher 线性 判别 的 关系 

这 一 节 我 们 将 通过 适当 选择 b 来 说 明 MSE 判别 函数 ay 是 和 Fisher 线性 判别 (第 3 章 3. 
8.2 节 ) 有 直接 联系 的 。 为 了 做 到 这 一 点 ,我 们 必须 首先 回 到 原始 空间 线性 判别 函数 的 使 用 ， 
而 不 是 广义 的 线性 判别 函数 。 我 们 假设 一 组 a 维 样本 集 xi ,xz x, ,其 中 i 个 属于 m 类 的 
样本 记 为 子 集 Pi on 个 属于 ws 类 的 样本 记 为 子 集 D;。 进 一 步 ,假设 一 个 从 x 生成 的 样本 y, 
它 通 过 加 上 一 个 国 值 分 量 zx, =1 而 得 到 “ 增 广 模 式 向 量 ”(augmented pattern vector)。 而 且 如 
RE BAA ow, ,那么 整个 模式 向 量 都 乘 以 一 1, 也 就 是 我 们 在 第 5. 4. 1 节 中 所 见 的 “规范 化 ” 操 
作 。 不 失 一 般 性 ,可 以 假设 前 n 个 样本 属于 wi ,后 m 个 样本 属于 w; 。 这 样 和 矩阵 Y 就 可 以 写 


”成 分 块 矩 阵 
1, XI 
Y=| -1, —X; | 


1; 是 n; 个 1 的 列 问 量 ， X, 是 一 个 n; X d 矩阵 , 它 的 行 是 属于 o, 的 样本 。 我 们 同样 将 a 和 分 
隔 开 来 : 


现在 证 明 b 的 这 个 特定 选 法 得 出 的 MSE 解 和 Fisher 线性 判别 是 相关 的 。 
我 们 先 对 等 式 (45) 中 的 a 写成 分 块 矩 阵 形式 ; 


, | 
È x || l Xi || @ |= È aJ (49) 
xi -X || -L -Xx || w Ki -x J] 2a 
n 
242) 定义 样本 均值 m 和 总 体 散 布 矩阵 Sw, 


1 l 
i = 一 = 1,2 
m — >) x r (50) 


2 
=>) >) «- m,)(x — m)! (51) 
i=l xeD; 


就 可 以 对 等 式 (49) 进 行 乘法 运算 ,得 到 
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n (nım; + n2m))' wo | _ 0 
(nım, 十 72m2) Sy +nymym) + nmm; w | | nm 一 mo2) 
由 此 分 解 出 两 个 等 式 ,第 一 个 得 到 用 w 表达 的 wo 的 解 ， 


wo = -m'w (52) 
这 里 m 是 所 有 样本 的 均值 。 将 它 代入 第 二 个 等 式 并 经 过 代数 运算 得 


n 





] 
[Su + > (m; — m2)(m; 一 ma) w=m -m (53) 


因为 对 于 任意 的 w, 回 量 (Cm — m, )(m, — m,)'w 都 是 在 m 一 ms WA] EL Ar RA 
Sm, — mz)(m; — m2)'w = (1 — @)(m, — m3) 
这 里 的 a 是 一 个 标量 。 这 样 等 式 (53) 就 变 成 
w= anS (m; — mp) (54) 


除了 多 出 一 个 并 不 重要 的 比例 因子 , 它 和 Fisher 判别 函数 的 解 是 一 致 的 。 同 时 ,我 们 得 到 了 
EYAL wo 和 以 下 判定 规则 :如 果 w(x —m) 0 MIA m ;否则 归 人 wi。 
5.8.3 最 优 判 别 的 渐 近 逼近 

MSE 的 解 值 得 推荐 的 另 一 个 性 质 是 如 果 b=|, 当 样本 数 趋 向 无 穷 多 时 , 它 以 最 小 均 方 误 
22 3B Ue YA oT All) eR BK 


gox) = P(a,|x) 一 P (|X) (55) 
为 了 证 明 这 一 点 ,我 们 必须 假设 样本 是 按照 概率 定律 
p(x) = p(xl@)) P(w) + p(x|@2) P(@2) (56) 


独立 同 分 布 (i.i. d) 抽 取 的 。 用 增 广 癌 量 y 表示 ,就 由 MSE 解 得 到 级 数 展开 g(x) =a'y, Kp 
y=y(x), WARE MATRA 


c= fry — go(x)]” p(x) dx (57) 


那么 我 们 的 目标 就 是 当 a=Y 1, 时 e: 达到 极 小 。 
如 果 保 持 w 类 样本 和 w, 类 样本 之 间 的 区 别 ,证 明 将 得 到 化 简 。 对 未 规范 化 的 数据 ,准则 
函数 Js 可 写成 


Jsa) = $ (ay 一 D2+》 @'y +1 


yey) yey2 
n] 1 t 2 na ] t 2 
[= nl 2 n n? 2 | 
利用 大 数 定理 , 当 趋向 无 穷 大 时 ,(1/n)J,(a) 以 概率 1 BE 
F(a) = P(w)Ei[(a'y — 1)7] + Plo) El(a'y + 1)7] (59) 


这 里 


slay -13]= J (a'y — 1) plo) dx 
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E5[(a’y + 1)7] = Jas + 1)? p(xla) dx 
现在 , 奉 把 等 式 (55) 写 成 


P(X, œw) 一 p(X, œ) 


go(x) = p(x) 


J(a) = [oy — 1)? p(x, w1) dx + Joy + 1)? p(x, œ) dx 
= [avr dx — 2 | aygo ptm dx 十 ] 


= J iay- swp dx+| : 一 | sep dx| 
Ma, 


——— 
e? 独立 于 a (60) 


244] 第 二 项 与 权 向 量 a 无关。 因此 a 将 JJ 最 小 化 的 同时 也 将 e ay 和 g(x) 的 均 方 差 ) 最 小 化 
(图 5-16) ,在 第 6 章 我 们 将 看 到 许多 多 层 神 经 网 络 也 具有 类 似 的 特性 。 


图 5-16 上 图 为 两 个 类 条 件 概率 密度 ,中 p(x I) 
图 是 后 验 概率 ,假设 它们 有 同样 的 先 验 概 
率 。 最 小 化 MSE 误差 的 同时 也 最 小 化 ay 
FFB BR g(x) (这 里 是 一 个 7 次 多 项 式 ) 
在 所 有 分 布 的 数据 上 的 均 方 差 ,如 下 图 所 
示 。 请 注意 ,得 到 的 g(x) 在 数据 点 所 处 的 
区 域内 最 接近 go Cx) 





这 个 结果 让 我 们 对 MSE 有 了 相当 深刻 的 了 解 。 通 过 近似 go (x), Fl) PM ay 给 出 了 后 
验 概率 P(e, |x) 一 (1 十 go)/2 和 Plws|x) 一 (1 一 go)/2 的 直接 信息 。 逼 近 程 度 由 方程 y (x) 和 
ay 展开 的 项 数 决 定 。 然 而 均 方差 准则 更 强调 的 是 p(x) 较 大 的 点 ,而 不 是 那些 判定 面 
go(Cx) 一 0 附近 的 点 。 因 此 最 近似 贝 叶 斯 判别 的 判别 函数 并 不 是 一 定 会 将 误差 的 概率 极 小 化 。 
尽管 如 此 ,MSE 解 仍 具 有 很 好 的 性 质 并 在 文献 中 得 到 相当 的 重视 。 在 随机 逼近 方法 和 多 层 神 
经 元 网 络 中 ,我 们 还 会 遇 到 go OD) A BT BIE. 
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5.8.4 Widrow-Hoff 算法 或 最 小 均 方 算法 
我 们 前 面 提 到 /.(a) = || Ya—b |? 可 通过 一 个 梯度 下 降 法 来 求 极 小 值 。 这 种 无 需 计 算 伪 
道 的 方法 有 两 个 优点 :(]1) 避 免 了 YY 是 奇异 扬 阵 所 带 来 的 问题 ,(2) 避 锡 了 大 矩阵 运算 。 同 
时 ,该 计算 是 一 个 反馈 过 程 , 它 可 以 自动 适应 由 含 人 或 截断 误差 所 引起 的 问题 。 内 为 
Y 一 2Y (Ya—b) 
显然 ,一 种 改进 的 算法 为 
a(l) 任意 
a(K 十 1 一 3() 十 TYCYa() 一 Pb) 
it 7(1) 为 任意 的 正常 数 ,如 果 7k) 二 TX1)/k, 那 么 这 个 算法 将 得 到 一 个 收敛 于 极限 向 量 a 的 
权 向 量 列 ,a 满足 
Y'(Ya—b)=0 
(这 就 是 习题 26 的 问题 )。 所 以 不 管 YY 是 不 是 奇异 矩阵 ,这 个 算法 都 能 得 到 一 个 解 。 
虽然 4Xad 和 矩阵 Y'Y 通常 都 比 4X n 矩阵 YY 小 得 多 ,而 通过 考虑 样本 的 序列 化 并 使 用 如 下 
的 Widrow-Hoff 算法 ,也 就 是 最 小 均 方 算法 (least-mean-squared,ILMS), 所 需 的 存储 空间 还 能 
够 继续 减少 。 | 


a(1) 任意 (61) 
a(k + 1) = a(k) + n(k)(b(k) — a(k)' y*)y* 
写成 算法 的 形式 就 是 : 


算法 10 (LMS 算法 ) 
1 begin initialize a,b, H] {E 0, 7C), k<—0 





2 do k«-Ck-+1)modn 

3 a<—a Ck) Cb, —a'y* )y* 

4 until | 7k) Cb, ayt) y | <9 
5 return a 

6 end 


粗 一 看 这 个 下 降 算 法 好 像 和 松弛 算法 是 一 样 的 。 主 要 的 区 别 在 于 松弛 算法 是 误差 校正 算 
法 ,a (k)y 并 不 等 于 妃 ,所 以 校正 不 会 停止 。 因 此 XC) 必须 随 着 k 增 大 而 减 小 来 保证 收敛 , 通 
常 采用 yk) =90)/k. Widrow-Hoff 算法 行为 的 精确 分 析 即 使 在 确定 性 情况 下 也 是 非常 复 
杂 的 ,并 且 仅 仅 表明 了 权 向 量 序列 是 趋向 于 我 们 想 要 的 收敛 解 。 这 里 就 不 去 详 加 分 析 卫 。 我 
们 将 会 看 到 一 个 随机 下 降 算 法 得 出 的 一 个 非常 相近 的 算法 。 但 是 要 注意 到 这 个 解 未 必 给 出 一 - 
个 分 类 向 量 , 即 使 它 的 确 存在 ,正如 在 图 5-17 中 的 情况 一 样 ( 上 机 练习 10)。 

图 5-17 ”注意 LMS 算法 未 必 收 急于 分 类 超 平面 ,即使 这 个 平面 存在 。 了 

由 于 LMS 解 将 训练 点 到 超 平面 点 的 距离 平方 和 最 小 化 ,在 这 个 例子 

中 该 平面 相对 于 分 割 超 平面 顺 时 针 旋 转 





|245] 
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5.8.5 PENE 

所 有 我 们 已 经 考虑 过 的 递归 下 降 算 法 都 被 写成 了 确定 性 的 形式 。 我 们 对 一 个 特定 的 样本 
集 生 成 一 列 特定 的 权 向 量 。 在 这 一 节 , 我 们 简要 考虑 一 种 MSE 方法 , 它 的 样本 是 随机 抽取 
的 ,生成 的 是 一 个 随机 权 向 量 序列 。 我 们 将 在 第 7 章 主要 讲述 随机 通 近 理论 ,但 在 这 里 将 不 加 
证 明 地 使 用 其 中 的 一 些 主要 思想 。 

假设 样本 是 按 以 下 方式 独立 抽取 的 , 先 按 概率 PCw;) 选 择 一 个 类 别 状态 ,再 按 概率 密度 
p(x|w;) 选 择 一 个 样本 x, 每 个 样本 都 有 一 个 类 别 标志 ,我 们 用 9 来 表示 ,对 于 两 类 问题 有 当 x 
属于 Wy 时 0 为 1 , 当 X 属于 We 时 0 为 一 1。 这 样 就 得 到 一 个 无 穷 的 相互 独立 的 数据 序列 (x 9 
O), (xz ,2)，… 即 使 类 别 变量 0 是 双 值 的 , 它 仍 可 被 看 成 是 贝 叶 斯 判别 函数 go (x) 的 含 噪声 的 
版 本 。 这 可 从 考察 

P(6 = 1|x) = P(@|x) 


及 
P(0 = —1|x) = P(ew2lx) 
得 到 ,所 以 9 的 条 件 均 值 是 
Elx[0] = > OP(O|x) = P(wi|x) — P(w2|x) = go(x) (62) 
© 
我 们 希望 用 有 限 级 数 展开 


d 
g(x) = a'y = 》 aiy;(x) 


i=l 


EEE go (x) BBM y,(x) 和 项 数 4 都 是 已 知 的 。 由 此 我 们 能 找到 一 个 权 向 量 a Be 
近 误 差 

€? = El(a'y — g0(x))”] (63) 
达到 极 小 。es 极 小 化 似乎 需要 知道 贝 叶 斯 判别 go (x) 。 实 际 上 从 5. 8. 3 节 中 类 似 的 情况 就 能 
猜 出 使 e 极 小 化 的 a 也 能 极 小 化 准则 函数 


Jn(a) = E[(a'y — @)7] (64) 
这 很 有 道理 ,因为 6 从 本 质 上 来 说 是 go(z) 的 一 个 含 噪 版 本 。 因 为 它 的 梯度 为 
VJm = 2E[(aly — 0)y] (65) 
由 此 可 得 有 闭合 形式 的 解 
â = Elyy'] E[0y] (66) 


所 以 处 理 样本 的 一 种 方法 是 估计 2[yy] 和 E[by], 并 由 式 (66) 来 求 得 MSE 最 优 线性 判别 。 
如 果 用 含 噪 声 的 版 本 2(a'y 一 y p 替代 真 正 的 梯度 的 话 , 这 可 得 到 改进 的 方法 


a(k + 1) = a(k) + n(@ — a (KyYe) ye (67) 
这 基本 上 就 是 Widrow-Hoff 算法 。 可 以 证 明 ( 习 题 23) ,如 果 ELyy'] 是 非 奇 异 的 , 且 系 数 7’) 
满足 


lim $, n(k) = +00 (68) 
k=1 
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及 
lim 2_,7(k) < oo (69) 
. k=] 
a(k) 将 按 均 方 收敛 于 a: 
Jim Eflla(o 一 âi] = 0 (70) 


要 求 XIK) 具 有 这 些 条 件 的 原因 是 很 简单 的 。 第 一 个 条 件 阻 止 权 向 量 收 和 伍 得 太 快 以 至 于 
系统 误差 永远 存在 。 第 二 个 条 件 保 证 了 随机 波动 最 终 会 被 抑制 。 简 单 地 选择 7Ck) = 二 1/k 就 可 
以 满足 这 两 个 条 件 。 但 是 Xx) 的 这 种 牧 序 渐进 的 递减 是 和 问题 不 相关 的 ,常常 导致 收 钱 得 极 
18 

当然 这 并 不 是 惟一 的 极 小 化 Jn 的 下 降 算 法 ,也 不 是 最 好 的 。 比 如 取 J 的 二 阶 偏 导 矩阵 

D = 2€[yy'] 
我 们 可 以 得 到 J ,( 式 (15)) 极 小 化 的 牛顿 算法 ， 
a(k + 1) = a(k) + Elyy'] ‘EI(0 — a'y)y] 
用 样本 估计 代替 期 望 ,可 得 到 类 似 求 样本 均值 时 的 迭代 算法 : 


a(k + 1) = a(k) + Rui i(@ — a’ (kK)ye)ye (71) 
其 中 
Rey = Rye! + yy (72) 
或 得 到 等 价 的 结果 9 : 
Riy (Reyx)' 
R = R; — -一 一 一 一 一 一 73 
k+l k 1 + yr Ry (73) 


这 个 算法 也 能 得 到 以 均 方 收敛 于 最 优 解 的 权 向 量 序列 。 它 的 收敛 速度 很 快 ,但 迭代 的 每 一 步 
的 计算 量 都 比较 大 (上 机 练习 8). 

这 些 梯度 算法 都 能 被 看 成 是 准则 函数 极 小 化 的 方法 ,或 者 是 在 有 了 噪 情况 下 寻找 梯度 的 零 
ko TERM FMR RI, 和 VV J, 一样 具有 ELf(a,x) jj 形式 的 水 数 都 称 为 “回归 也 数 ”(re- 
gression function) ,这 类 的 迭代 算法 就 叫 “ 随 机 允 近 算法 ”(stochastic approximation proce- 
dure) 。 上 具体 有 两 种 著名 的 方法 ,它们 分 别 是 (1)Kiefer-Wolfowitz 算法 , 它 是 对 回归 函数 的 极 
小 化 ,(2)Robbins-Monro 算法 , 它 是 寻找 回归 也 数 的 根 。 通 常 对 特定 的 下 降 法 或 逼近 法 证 明 
其 收敛 的 最 简单 的 方法 是 证 明 它 满足 更 一 般 的 算法 收敛 条 件 。 然 而 ,对 这 些 方法 的 一 般 性 的 
论述 超出 了 本 书 的 范围 ,有 兴趣 的 读者 可 阅读 参考 文献 。 


5.9 Ho-Kashyap 算法 


前 面 我 们 讲述 的 算法 在 很 多 方面 都 大 不 一 样 。 感 知 器 和 松弛 法 对 线性 可 分 样本 集 可 找到 
分 离 向 量 , 但 对 于 不 可 分 的 情况 就 不 收 化 了 。MSE 法 不 管 样本 是 否 可 分 都 能 得 到 一 个 权 向 
量 , 当 然 并 不 能 保证 在 可 分 的 情况 下 这 个 向 量 一 定 是 分 类 向 量 ( 见 图 5-17) 。 如 果 裕 量 b 是 任 
意 选 择 的 ,我们 只 能 说 MSE 法 使 得 | Ya 一 b ||? 极 小 化 。 如 果 训 练 样 本 刚好 是 线性 可 分 的 , 那 


O ”这 个 计算 RR 的 递归 公式 近似 等 于 (1/k)eLyy:]-! ,如 果 Ri 是 奇异 的 ,公式 不 能 使 用 ，。 








[250] 


204 e # 5# 


么 就 存在 a 和 名 满足 

Ya=b>0 
这 里 各 >0 是 指 忆 的 分 量 都 是 正 数 。 显 然 , 当 我 们 设 b=b 并 应 用 MSE 算法 就 能 得 到 一 个 分 类 
向 量 ,但 是 我 们 无 法 预知 各。 不 过 现在 我 们 可 以 修改 MSE 算法 来 同时 得 到 分 类 向 量 a 和 余 向 
量 b。 这 个 重要 的 思想 来 自 于 对 以 下 的 观察 :如 果 样 本 是 可 分 的 , 且 在 准则 函数 


J,(a, b) = |[Ya — bli’ (74) 
中 的 a 和 bb HB A BAY ARLE bD>-O) ,那么 J, 的 极 小 值 就 是 0, 这 时 的 a 就 是 分 离 回 量 。 
5.9.1 下 降 算 法 

为 使 式 (74) 极 小 化 ,我 们 必须 对 梯度 下 降 法 进行 修改 。J, 关于 a 的 梯度 是 

V.J, = 2Y'(Ya — b) (75) 
.关于 bb 的 梯度 是 

Vb = —2(Ya — b) (76) 
对 任意 的 b, 我 们 可 令 

a= Yb (77) 


这 样 …… 步 就 使 得 V.j ,=0 且 本 关于 a 是 极 小 化 的 。 由 于 b 必须 满足 限制 条 件 b>0, 我 们 无 法 
自由 地 更 改 b, 同 时 还 得 避免 下 降 法 收 全 到 b 一 0。 一 种 防止 b 收敛 于 0 的 方法 是 令 初 始 b 的 
各 分 量 均 为 正 数 并 在 计算 过 程 中 不 许 使 这 些 分 量变 小 。 我 们 可 以 通过 将 初始 的 VoJ, 的 所 有 
正 分 量 置 为 0 来 实现 这 一 点 并 以 此 来 求 得 负 梯 度 。 为 此 ,我 们 令 |v| 为 这 样 一 个 向 量 , 它 的 名 
分 量 是 向 量 v 的 各 分 量 的 绝对 值 , 这 样 得 到 b(Ck) 的 容量 修改 规则 


1 
b(k + 1) = b(k) — n>=lVoJs — |VbJ;1] (78) 


用 式 (76) 和 式 (77) 就 得 到 将 J,(a,b) 极 小 化 的 Ho-Kashyap 算法 : 
b(1) > 0 但 其 他 的 都 任意 


b(k + 1) = a(k) + 2n (k)et (k) (79) 
e k) ERZ hE 
e(k) = Ya(k) — b(k) (80) 
e+ (DE e(CK) 的 正 数 部 分 
et (Kk) = (e(k) + |e(k)]) (81) 
和 各 
a(k) = Y'b(k), k= 1,2,...- (82) 


如 果 设 bmi 为 一 个 小 的 收敛 准则 ,AbsLej] 为 e 的 正 数 部 分 ,就 得 到 以 下 算法 : 


算法 11 (Ho-Kashyap 算法 ) 

1 begin initialize a,b.9(+)<1 , B] {H Omin » kmax 
2 do k<-(k+1) mod n 

3 e<-Ya—b 
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4 e+ <-1/2(e+ AbsLe]) 

5 b<-a+2n( k)e* 

6 a<-Y' b 

7 if Abs [e]<é,,,then return a,b 和 exit 
8 until k= kmax 

9 打印 “NO SOLUTION FOUND” 

10 end 





因为 权 向 量 a(k) 完 全 由 裕 量 向 量 b(k) 决 定 , 这 个 算法 基本 上 就 是 产生 一 个 裕 量 向 量 列 
的 算法 。 和 初始 问 量 b(1) 是 正 的 ,如 果 >0 的 话 , 序 列 b(k) 的 所 有 问 量 都 是 正 的 。 有 人 可 能 会 
担心 如 果 el(k) 的 所 有 分 量 都 不 是 正 数 的 话 ,bCk) 将 不 会 改变 ,我 们 也 就 得 不 到 解 。 捉 实 上 
elk) 二 0 的 话 我 们 仍 能 得 到 解 , 而 当 eC) <O 时 ,我 们 可 以 证 明 这 些 样本 不 是 线性 可 分 的 。 
5.9.2 收敛 性 证 明 

我 们 现在 证 明 :如 果 样 本 是 线性 可 分 的 且 0<7<1 ,那么 Ho-Kashyap 算法 在 有 限 步 内 得 
到 -一 个 解 。 为 了 使 算法 收敛 ,我 们 需要 加 入 终止 条 件 : 一 旦 找到 一 个 解 ,或 者 当 出 现 某 个 大 的 
准则 数 时 校正 停止 。 然 而 ,在 数学 上 更 方便 的 是 此 时 让 循环 继续 下 去 ,直到 误差 向 量 e(K) 或 
者 在 有 限 k 步 内 变 为 0, 或 者 当 k 趋 向 无 穷 时 e(Ck) 收 敛 于 0。 

显然 存在 两 种 情况 ,一 种 是 有 某 些 k 一 一 不 妨 设 其 中 一 个 为 ko 一 一 有 elk) 一 0. 还 有 -~ 种 
就 是 对 所 有 的 e(1),e(2),… 都 不 为 0。 第 一 种 情况 ,一 旦 得 到 了 一 个 零 向 量 ,a(k),b(k) 和 
el(k) 就 不 再 发 生变 化 并 对 所 有 的 k 宇 ko 都 有 Ya(k) =b( kK) >0. MFU-ABS--TERE i 
量 ,算法 自动 终止 并 得 到 一 个 解 。 

现在 假设 对 有 限 的 ,el(k) 都 不 为 0 的 情况 。 为 了 说 明 eC) 一 定 会 收敛 到 0, 我 们 现 解 决 
以 下 问题 :我们 是 否 可 能 得 到 分 量 均 为 非 正 数 的 eC(k) 因 为 这 是 最 糟 的 情况 ,由 于 e* Ck) EO 
问 量 ,于 是 就 有 Ya(k) 志 bb(k)、al(k)、bCk)、elk) 也 不 再 有 变化 。 还 好 ,只 要 样本 是 线性 可 分 
的 ,这 种 情况 就 一 定 不 会 发 生 。 其 证 明 是 很 简单 的 ;如果 OY’ Valk) =Y bC). BBA Y'e(k) =O. 
但 如 果 样 本 是 线性 可 分 的 ,就 一 定 存 在 a0 和 b>0 满足 

Ya=b 
这 就 得 到 
e'(k) Ya =0 = e'(k)b 

因为 是 正 向 量 ,所 以 eC(k) 要 么 为 0, 要 么 至 少 有 一 个 不 为 0 的 分 量 。 由 于 我 们 已 经 排除 了 
eC k) 一 0 的 情况 ,所 以 在 有 限 步 内 et (k) 一 定 不 为 0。 

误差 向 量 总 是 收敛 于 0 的 证 明 用 到 了 这 样 的 事实 :YY 是 对 称 的 、. 半 正定 的 ,并 满足 

(YYTDICYYT) = YY’ (83) 

虽然 这 些 结论 在 一 般 情况 下 都 成 立 , 为 了 简化 证 明 , 我 们 假设 YY 是 非 奇 异 的 。 这 样 就 有 
YY 一 Y(Y'Y) UY ,显然 它 是 对 称 的 。 由 于 Y'Y 是 正定 的 ,所 以 (Y'Y) 一 也 是 正定 的 。 这 样 对 
于 任意 的 bb 就 有 bYCY’Y)-!Y'b 实 0, 所 以 YY 是 半 正 定 的 。 最 后 由 式 (83) 得 


(YY ) YY) = [YYY] (YOY)! Y] 
为 了 证 明 el(%) 一 定 收敛 于 0, 我 们 联 立 式 (80) 和 式 (82) ,消去 a(k) 得 
e(k) = (YY' — Db(k) 
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这 样 由 一 个 常数 学 习 率 及 式 (79) 得 递归 关系 式 
e(k +1) 一 (YY — D(b(k) + 2net(k)) 
= e(k) + 2n(YY! — Det (k) (84) 
所 以 


l 
gle + DI = zlew? + ne'(K)(YY! — Det (k) + lin (YY* — Det (k)i? 


第 二 项 .第 三 项 都 可 以 化 简 。 因 为 e (Kk)Y= 二 0, 第 二 项 就 写成 
ne’ (k)(YY' — Det (k) = —ne' (k)e* (k) = —nile* (KDI? 
由 于 YY 是 对 称 的 且 等 于 (YYD)CYYT) ,第 三 项 可 化 简 为 
In(Y¥* — Det (k)? = net (KXYYt — D'(YYŻ — Det (k) 
= n’ llet (k)? — n'et (kK)YY'e* (k) 
这 样 就 得 到 
(le)? — lek + DIA = nA ~ mher (KN? + n et (&)YY'e* (k) (85) 


” ”由 假设 可 知 et Ck) SESE HAY YYi 是 半 正 定 的 ,所 以 当 0 过 7<1 t leco ||? > lleCk +) ll? si 
序列 ledd], e 上? ,… 是 单调 递减 的 且 必 须 收敛 到 一 个 有 限 的 值 eH:。 但 是 ,要 收敛 
的 话 et (必须 收敛 到 0, 也 就 是 eCk) 的 正 分 量 必 须 收敛 为 0。 因 为 对 所 有 的 k 都 有 e'(k)b= 
O,eCk) 的 各 分 量 也 就 收敛 到 0。 所 以 ,如 果 样 本 为 线性 可 分 的 和 且 0 二 7<1, 当 k 趋 向 无 穷 大 时 ， 
a(k) 收 敛 到 一 个 解 向 量 上 。 

如 果 我 们 每 一 步 都 检查 Ya(k) 各 分 量 的 值 且 当 分 量 都 为 正 时 终止 算法 ,这 样 我 们 就 在 有 
限 步 内 得 到 解 。 这 是 因为 Yal = 二 b(k) 十 e(k) 且 b(k) 的 分 量 是 不 减少 的 。 所 以 设 ban H 
b(1) 的 最 小 分 量 , 当 eC) WBE O 时 ,el(k) 一 定 在 有 限 步 进入 超 空 间 || eC ke) |) = bain s E E RF 
有 Ya(Ck) 盖 0。 虽 然 我 们 为 了 化 简 证 明 而 忽略 了 终止 条 件 , 采 用 这 样 的 终止 条 件 在 实践 上 一 般 
来 说 是 非常 有 用 的 。 

5.9.3 不 可 分 的 情况 

如 果 上 面 给 出 的 收敛 证 明 是 用 来 检验 可 分 假设 条 件 的 话 , 它 需要 两 次 。 第 一 ,e (k)b 一 0 
用 来 证 明 有 限 步 内 e(k) 二 0 或 者 是 e+ (x) 永远 不 为 0 从 而 校正 不 会 结束 。 第 二 ,同样 的 限制 
条 件 被 用 来 证 明 如 果 e+ (kx) 收敛 于 0 的 话 ,el(k) 一 定 收敛 到 0。 

如 果 样 本 是 非 线 性 可 分 的 ,e+ (EO 的 话 el) —ESKAF 0 这 样 的 结论 就 不 成 立 了 。 
实际 上 ,在 非 可 分 的 问题 中 ,我 们 可 能 得 到 一 个 没有 正 分 量 的 非 零 误差 向 量 。 如 果 找 到 的 话 ， 
算法 自动 终止 , 且 我 们 可 以 证 明 该 样本 是 线性 不 可 分 的 。 

模式 是 不 可 分 的 ,而 且 ef (k) 又 不 为 0, 这样 会 发 生 什么 情况 呢 ?” 此 时 仍然 有 


e(k + 1) = e(k) + 2n(VYY' — Det (k) (86) 


1 
zlew? — jje(k + DHA = n(1 ~ mlet (k)? + net (AYY et (k) (87) 


所 以 序列 led, lel th Ek SEE MFIFA IF 0, MRC ADT. OH BE 
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求 e CO TERRA ADA 0, MAZE |leCk) | AAS RATE et C(x) 也 收敛 到 0。 因 此 ,Ho-Kashyap 
算法 给 了 我 们 在 可 分 条 件 下 的 一 个 分 类 向量 ,并 且 在 不 可 分 的 时 候 给 出 一 个 不 可 分 的 判 据 。 
但 是 判断 样本 为 不 可 分 所 需 的 步 数 是 没有 界 的 。 
5.9.4 一 些 相关 的 算法 
WRS Y= CYY)'Y HALA ¥'eCk) 一 0, 我 们 就 可 以 对 Ho-Kashyap 算法 作 如 下 修改 : 
bil) > 0 但 其 他 情况 下 不 定 


a(l) = Yib(l) 
b(k +1) = bo 十 Te + le(k)i) (88) 
a(k+1) = a(k) +nY'le(k)| 
其 中 
e(k) = Ya(k) — b(k) (89) 
由 此 得 固定 学 习 率 的 算法 : 


算法 12 (修改 的 Ho-Kashyap 算法 ) 
1 begin initialize a,b,7<1, BQ(E Onin » kmax 





2 do k<-(k+1) mod n 

3 ex-Ya—b 

4 e <-1/2(e+ Abs/[e]) 

5 b<-b+ 27(k) (e+ AbsLe]) 

6 ax-Y' b 

7 if AbsLe]<@,,, ,then return a,b } exit 
8 until k= kmax 

9 打印 “NO SOLUTION FOUND” 


这 个 算法 与 感知 器 法 和 松弛 法 在 解 线 性 不 等 式 方面 至 少 有 3 个 不 同 点 :(1) 它 同时 修改 a 
MRE b, (2) 它 提供 了 不 可 分 的 证 据 ,(3) 它 要 求 计算 伪 首 矩阵。 即使 第 (3) 点 的 计算 只 需 计 
算 一 次 , 它 仍 可 能 是 很 耗 时 的 ,并 且 如 果 YY 是 奇异 的 话 还 要 特殊 处 理 。 一 个 令 人 感 兴 趣 的 
算法 类 似 于 式 (88) 但 又 不 需要 计算 Y ,该 算法 如 下 : 

b(1) > 0 但 其 他 情况 不 定 
a(1) 不 定 
b(k + 1) = b(k) + (e(k) + le(k)|) (90) 
a(k + 1) = a(k) + nRY |e(k)| 
这 里 的 R ERAS EE ed Xd. FAA EAA “4G HUE 7, 有 解 的 时 候 , 这 个 算法 
也 能 在 有 限 步 得 到 一 个 解 向 量 。 进 一 步 , 如 果 不 存 在 解 ,向 量 Y'e(k) 将 变 为 0 一 一 这 说 明 样 本 
不 可 分 或 收敛 于 0。 
它 的 证 明 是 很 显然 的 ,不 管 样本 是 否 可 分 ,由 式 (89) 和 式 (90) 可 得 
e(k + 1) = Ya(k + 1) — b(k + 1) 
= (nYRY’ — Dje(k)| 





| 
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其 平方 为 
lek + DI? = le(k)|'(n?YRY'YRY — 2nYRY’ + Dle(k)| 
由 此 可 得 
leck)? — lek + DI = (Wek) ACY e(k)) (91) 
这 里 
A = 2nR — n RY'R (92) 


显然 ,如 果 7 了 是正 的 且 足 够 小 ,A 就 近似 等 于 2R AMEEN. ROR Y lek) | 天 0, 就 
有 | eck) |? 之 1‖eGCK 十 1) ||’. 
此 时 我 们 必须 区 分 可 分 和 不 可 分 的 情况 。 可 分 时 ,存在 a0 和 hb>0 满足 Ya=b, 如 果 
le(k)|'Ya = |e(k)|'b > 0 


除了 eC k)=0,Y'leCk) | 都 不 为 0。 所 以 lleC1) ||’, led 1? , «++ Fb BA UH 8 om a HE SET A 
RAIE lell. 1% TIRES, Y ec | 必须 收敛 到 0, RE ec) | 从 而 Ck) DAE MH 
到 0 的 。 因 为 e(CK) 是 从 正 数 开始 且 永 不 下 降 ,a(Ck) 就 一 定 收 敏 到 一 个 分 类 问 量 上 。 而 且 和 以 
前 的 讨论 一 样 ,一 定 能 在 有 限 步 内 找到 一 个 解 。 

在 不 可 分 的 情况 下 ,el(k) 不 会 是 0 也 不 会 收敛 到 0。 可 能 在 某 一 步 时 有 Y’ [eC k) | 一 0, 这 
提供 了 不 可 分 的 证 据 。 但 也 可 能 校正 序列 一 直 进 行 下 去 而 不 停止 。 这 个 情况 下 也 能 推出 序列 
Led) 17, ll eC2) | ,… 一 定 收 全 到 一 个 有 限 的 不 为 0 的 el? 上 , 且 YY'|elk)| 一 定 收敛 到 
0。 这 样 我 们 也 同样 得 到 不 可 分 情况 下 的 不 可 分 证 据 。 

结束 讨论 之 前 ,让 我 们 简要 地 看 一 看 该 如 何 选择 7 和 RR。R 的 最 简单 选 法 是 单位 矩阵 ,这 
样 A 二 2 一 YY'Y。 这 和 矩阵 是 正定 的 ,保证 了 当 0 过 7<2/4w: 时 是 收敛 的 ,Awa 是 VY 的 最 大 本 
征 值 。 由 于 YY 的 主 对 角 线 之 和 是 Y'Y 本 征 值 之 和 ,也 是 Y 的 本 征 值 的 平方 和 ,因此 可 根据 
FF Ad Am: lly, 1 ?来 选择 7。 

一 个 更 好 的 方法 是 每 一 步 都 改变 7, 来 使 得 上 eCk) 上 一 lec +D RERA. HA 
(91) 和 和 式 (92) 可 得 


lle(k) II — lje(k + 1)? = le(k)| Y (2R — n? RY'YR)Y' |e(k)| (93) 
对 7 求 微 分 ,得 到 7 了 的 最 优 值 
je(k) YRY'|e(k)| 


n(k) le(k) | YRY' YRY' |e(k)| (94) 
取 了 及 三 也 简化 为 
IY le(k)| |]? 
k i nd 
nk) YY‘ leck)| I (95) 


其 实 也 同样 可 选择 矩阵 R。 用 对 称 阵 R 十 SR 来 替换 式 (93) 中 的 R, 并 忽略 第 二 项 ,就 可 得 
5(|leCk) I? — lek + DI) = jek) YIR d — nY'YR) + (I — 7nRY’Y)SR]Y' le(h)| 
这 样 ,通过 选择 


1 
R= YD (96) 
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使 平方 误差 向 量 下 降 达 到 最 大 ,同时 因为 RY =Y ,这 样 得 到 的 算法 实际 上 就 和 原始 的 Ho- 
Kashyap 算法 是 一 致 的 。 


"5.10 ”线性 规划 算法 


感知 器 法 .松弛 法 和 Ho-Kashyap 法 基本 上 都 是 求解 联 立 线性 不 等 式 的 梯度 下 降 法 。 线 
性 规划 技术 是 一 种 对 由 线性 等 式 或 线性 不 等 式 约束 的 线性 函数 的 极 大 化 或 极 小 化 。 这 意味 着 
我 们 可 以 用 它们 来 作为 适合 的 线性 规划 函数 的 约束 条 件 来 解 线性 不 等 式 组 。 在 这 一 节 我 们 将 
介绍 其 中 的 两 种 可 行 的 方法 。 我 们 并 不 要 求 读者 一 定 具 有 线性 规划 的 知识 来 理解 这 些 公 式 ， 
尽管 在 应 用 本 节 的 技术 时 掌握 这 些 知 识 是 非常 有 用 的 。 
5. 10.1 线性 规划 

一 个 经 典 的 线性 规划 问题 可 描述 如 下 :寻找 一 个 向 量 S Cu stts Un) 来 极 小 化 线性 
(标量 ) 目 标 函 数 


z=Qæu (97) 


同时 满足 约束 条 件 
Au > B (98) 


这 里 的 &@ 是 一 个 m x 1 的 代价 向 量 ,hb 是 一 个 1/ x 1 向量 ,而 A 是 一 个 1 m 的 矩阵 。 “单纯 
型 算法 ”(simplex algorithm) 是 这 个 问题 典型 的 迭代 算法 (图 5-18)。 因 为 技术 上 的 原因 , 它 要 
求 另 一 个 限制 条 件 uo, 

如 果 把 u 看 成 权 向 量 a, 这 个 限制 是 无 法 接受 的 ,因为 在 大 多 数 情况 下 解 向 量 有 正 的 分 
量 , 也 有 负 的 分 量 。 但 ,假设 我 们 把 a 写成 


a=at—a (99) 
ix 
at = ; (lal + a) (100) 
a” = Tajal — a) (101) 
2 


这 样 a* 和 a 都 是 非 负 的 且 可 用 a 和 a- 来 确定 u 了 ,比如 我 们 可 接受 限制 条 件 u 之 0。 


图 5-18 ”常数 = 一 wu 的 表面 用 灰色 表示 , Au 一 了 的 限制 条 件 用 红色 表 j 
示 。 单 纯 型 算法 找到 一 个 满足 限制 条 件 的 = 的 极 值 ,在 图 中 就 是 灰 平面 和 N 





5.10.2 线性 可 分 情况 
假设 我 们 有 n 样本 集合 Yi > Y22°°*s yn BRNABA—T+RAR a 对 所 有 的 i 都 满足 
ay 之 六 0。 在 线性 规划 问题 中 是 如 何 来 表达 的 呢 ? 一 种 方法 是 引 人 和 人 被 称 为 人 工 变量 的 0-20.78 
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Æ 
a'y; +T > bi 


如 果 rz 足够 大 ,满足 此 限制 条 件 没有 任何 问题 ;比如 a 二 0 H rz 一 maxbi”。 但 是 这 并 不 能 解决 
我 们 的 原始 问题 。 我 们 希望 的 是 r=0 时 的 一 个 解 , 它 是 + 满足 + 之 0 时 所 能 取 最 小 值 而 仍 能 
得 到 解 的 情况 。 因 此 我 们 考虑 由 此 导出 的 问题 :得 到 r+ 极 小 化 及 a, 这 时 满足 条 件 ayi >b A 
r 之 0 。 如 果 所 求 得 的 t+ 为 0, 样本 就 是 线性 可 分 且 可 得 到 一 个 解 。 如 果 得 到 的 + 是 一 个 正 数 ， 
就 没有 分 类 问 量 ,但 我 们 可 以 证 明 此 时 样本 是 不 可 分 的 。 

从 形式 上 说 ,我 们 的 问题 是 找到 一 个 向 量 vu 在 满足 限制 Au 之 和 uo 时 使 目标 函数 
xz 一 Cu 极 小 化 ,这 里 


yi -yji 1 bi 


+ 
y! —y! 1 a 0 b> 
A=| |, u=|a |, =| 0|, B=]. 
: : : T 1 : 


Ya 一 yp 1 bn 


因此 ,线性 规划 问题 就 包含 m 一 2 4 十 1 个 变量 和 71 一 n 个 条 件 ,再 加 上 单纯 型 算法 的 约束 条 件 
u 宇 0。 单 纯 型 算法 可 在 有 限 步 内 找到 满足 =ou=zr 的 极 小 值 ,并 显示 一 个 向 量 立 能 产生 这 
个 值 。 如 果 样 本 是 线性 可 分 的 ,这 个 极 小 值 + 为 0, 同 时 一 个 解 向 量 a 由 4 得 到 。 如 果 样 本 是 
不 可 分 的 ,这 个 极 小 值 + 就 是 一 个 正 数 。 作 为 结果 而 产生 的 a 作为 近似 解 并 没 多 大 用 处 ,但 至 
少 可 证 明 线 性 不 可 分 。 
5.10.3 极 小 化 感知 器 准则 函数 

在 各 种 大 量 的 模式 分 类 应 用 中 ,我 们 不 能 假设 样本 是 线性 可 分 的 。 特 别 是 , 当 模 式 不 可 分 
时 ,设计 者 仍然 希望 获得 一 个 能 将 尽 可 能 多 的 样本 分 类 的 权 向 量 。 但 是 ,误差 的 数值 并 不 是 权 
向 量 分 量 的 线性 函数 , 它 的 极 小 化 不 是 一 个 线性 规划 问题 。 不 过 可 以 证 明 感 知 器 准则 函数 极 
小 化 问题 可 被 改造 成 线性 规划 问题 。 因 为 这 个 准则 函数 的 极 小 化 在 可 分 情况 下 能 产生 一 个 分 
类 向 量 ,而 在 不 可 分 情况 下 可 以 得 到 一 个 合理 的 解 ,这 样 的 方法 是 很 吸引 人 的 。 

回忆 一 下 5.5 节 , 基 本 感知 器 准则 函数 是 

Jp(a) = $ (a'y) (102) 
yey 

这 里 y(a) 是 被 a 错 分 的 训练 样本 集 。 为 了 避免 无 用 的 解 'a=0, 我 们 引入 一 个 正 的 裕 量 向 量 b 
而 改写 成 ， 


La-La -ay a0 
yey’ 

这 里 如 果 a'y: Sb; 时 yEy’, 显然 ,了 是 a 的 一 个 分 段 线性 图 数 , 并 不 是 线性 范 数 ,线性 规划 

技术 不 能 马上 应 用 。 但 通过 引入 nn 个 人 工 变 量 和 它们 的 限制 条 件 , 我 们 可 以 构造 一 个 相当 的 

线性 目标 函数 。 考 虑 如 下 问题 ,寻找 一 个 问 量 a At RR) AE R gr 


名” 根据 线性 规划 的 术语 ,任何 一 个 满足 约束 的 解 都 称 为 可 行 解 。 如 果 一 个 可 行 解 (feasibie solution) 中 的 非 零 变量 的 
个 数 超过 约束 方程 的 个 数 , 这 个 可 行 解 就 被 称 为 基本 可 行 解 (basic feasible solution)。 这 样 , 解 a=0 和 r= maxs; 
就 是 一 个 基本 可 行 解 。 如 果 能 够 得 到 基本 可 行 解 ,那么 就 能 够 大 大 简化 单纯 型 算法 的 应 用 。 





线性 判别 函数 m 21] 


n 
< = 》 
i=l 


满足 约束 
% 20 和 五 > 太一 ay 
当然 对 于 任意 固定 的 a,z 的 极 小 值 就 刚好 是 ,Ca), 这 是 因为 在 约束 条 件 下 我 们 所 能 做 
得 最 好 的 是 取 式 二 max[L0, 6; 一 a'y;]。 如 果 我 们 使 得 z 关于 t 和 a 最 小 化 ,我 们 将 得 到 J 
的 最 小 的 可 能 的 值 。 因 此 将 六 (Ca) 极 小 化 问题 转化 为 一 个 由 线性 不 等 式 约束 的 线性 函数 z 的 
极 小 化 问题 。 令 u 为 一 个 nn 维 的 单位 向 量 , 我 们 就 得 到 以 下 有 24 十 nn 个 变量 及 1 二 =n 个 限制 
条 件 的 问题 : 极 小 化 由 Au 宇 了 及 uo 约束 的 a'u, 其 中 


y =y 1 0...0 a 
t yt 0 1 ...0 
: : : : h’ > T 
yo -y 0 0 .1 
by 
a=| 0 |, p= 
1, . 
bn 
可 取 a=0 H zt 二 6b; 提供 作为 基本 可 行 解 开始 单纯 型 算法 , 旦 单纯 型 算法 将 在 有 限 步 得 到 一 个 


使 ,Ca) 极 小 化 的 a。 

我 们 已 经 描述 了 两 种 将 寻找 线性 判别 函数 作为 线性 规划 问题 的 方法 。 也 有 一 些 其 他 可 能 
的 方法 ,还 有 其 他 通过 对 偶 导 出 的 表达 形式 ,从 计算 的 观点 来 看 ,它们 有 特殊 的 意义 。 总 的 来 
说 ,单纯 型 算法 这 类 方法 只 是 服从 线性 约束 的 对 线性 函数 求 极 值 的 复杂 的 梯度 下 降 法 。 线 性 
规划 算法 的 编程 通常 比 我 们 以 前 提 到 的 简单 下 降 法 要 复杂 的 多 ,并 且 简 单 下 降 法 能 够 很 自然 
地 推广 到 多 层 神 经 元 网 络 上 。 不 过 ,可 以 直接 使 用 (或 者 轻松 地 修改 ) 现 成 的 通用 线性 规划 程 
序 包 ,以 保证 得 到 对 可 分 和 不 可 分 的 问题 都 能 收敛 的 优点 。 l 

表 5-1 给 出 在 这 一 节 中 提出 的 寻找 线性 判别 函数 的 多 种 不 同 的 算法 。 读 者 可 能 很 自然 地 
会 问 哪 一 个 最 好 ,实际 上 没有 哪 一 个 是 比 别 的 算法 都 好 的 。 对 它们 的 选择 取决 于 所 希望 的 特 
性 、 编 程 的 难 易 、 样 本 的 数目 及 样本 的 维 数 。 如 果 某 个 线性 判别 函数 可 以 得 到 一 个 低 误 差 率 的 
话 ,这些 算法 当中 的 任何 一 个 应 该 都 能 得 到 很 好 的 性 能 。 


“5.11 支持 向 量 机 


我 们 已 经 知道 了 如 何 用 边沿 容量 ” (margin) 来 训练 线性 机 。 支 持 向量 机 (support vector 
machine,SVM) 也 是 基于 同样 的 考虑 ,但 它 依赖 于 对 数据 的 预 处理 , 即 ,在 更 高 维 的 空间 表达 
模式 ,并且 通常 比 原 来 的 特征 空间 的 维 数 高 很 多 。 通 过 适当 的 到 一 个 足够 高 维 的 非 线 性 映射 
P+) ,数据 (属于 两 类 ) 总 能 被 一 个 超 平面 分 割 ( 习 题 29)。 我 们 假设 每 个 模式 xy, 变换 到 
yk 二 9Cxx) ;我 们 就 把 问题 变 为 如 何 选择 gC(*)。 对 个 模式 中 的 每 一 个 ,k= 二 1,2,…,n, 根 据 
模式 属于 wi 或 是 ws ,我 们 分 别 令 z= 二 土 1, 增 广 空间 y 上 的 判别 函数 就 是 


日 ” 译 者 注 :又 译 为 “分 类 间 隐 ”,“ 分 类 间 际 ”, 简 称 为 “间隔 ”"”。 出 于 几何 解释 上 的 考虑 ,在 本 节 中 我 们 主要 使 用 “间隔 "这 种 详 法 。 
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g(y) = a'y (104) 


这 里 的 权 向 量 和 变换 后 的 模式 向 量 都 是 增 广 的 (相应 地 取 a 二 wo ,yo 二 1)。 这 样 , 一 个 分 隔 超 
平面 保证 i 

zxg (yk) = I, kK=1,---,n (105) 
如 图 5-8 所 示 。 

在 第 5.9 节 中 ,间隔 5 是 到 判定 超 平面 的 任何 正 的 距离 。 训 练 一 个 支持 向 量 机 的 目标 是 
找到 一 个 具有 最 大 间隔 (argest margin) 的 分 隔 平面; 如 果 间 了 中越 大 ,得 到 的 分 类 器 也 越 好 。 
和 图 5-2 描述 的 一 样 , 从 超 平面 到 (变换 后 的 ) 模 式 y 的 距离 是 |g(y)|/ a 上 ,如果 正 的 间隔 5 
存在 的 话 , 由 式 (105) 推 出 

ZA (yr) 、 
‘lall 
我 们 的 目标 就 是 找到 一 个 使 得 5 最 大 化 的 权 向 量 a。 当 然 , 解 向 量 可 以 任意 地 伸缩 ,同时 保持 
超 平面 不 变 , 这 样 就 保证 了 我 们 加 上 的 限制 条 件 5 上 all==1; 也 就 是 方程 (104)、(105) 的 解 是 
lall” KJE. 

支持 向 量 (support vector, XIE“ VER”) 是 使 式 (105) 等 号 成 立 的 (变换 后 的 ) 模 式 向 
量 一 一 也 就 是 说 支持 向 量 是 接近 超 平面 的 (图 5-19)。 支 持 向 量 是 那些 定义 最 优 分 割 超 平面 
的 训练 样本 ,也 是 那些 最 难 被 分 类 的 模式 。 非 形式 地 说 ,它们 就 是 对 求解 分 类 任务 的 最 富有 信 
息 的 模式 。 


图 5-19 训练 一 个 找 最 优 超 平面 的 支持 向 量 机 。 这 
个 最 优 超 平面 是 到 最 近 的 训练 模式 的 距离 为 最 大 的 平 
A. 支持 向 量 是 那些 (最 近 的 ) 模 式 ,到 超 平面 的 距离 
Ab. APA 3 个 支持 向 量 , 都 标明 为 实心 点 





k=1,...,n (106) 





Yi 


一 种 训练 文 持 问 量 机 的 简单 方法 是 一 种 建立 在 对 我 们 熟知 的 感知 器 训练 法 (算法 4) 进行 
一 些小 的 修改 的 基础 之 上 的 。 回 忆 一 下 感知 器 学 习 法 , 它 修改 权 向 量 的 次 数 与 任何 的 随机 选 
择 的 被 错 分 的 模式 成 比例 。 然 而 一 个 支持 向 量 机 可 通过 选择 当前 被 分 类 得 最 差 的 模式 来 进行 
训练 。 在 训练 的 大 多 数 时 候 , 这 样 的 一 个 模式 是 在 当前 判决 边界 分 错 的 一 边 , 并 且 离 判决 边界 
最 远 的 模式 。 当 训练 结束 的 时 候 , 这样 的 模式 就 是 支持 向 量 (习题 31)，。 

然而 ,在 计算 中 发 现 最 差 的 模式 是 非常 费时 的 ,这 是 因为 每 次 更 新 都 要 搜索 所 有 训练 集 来 
寻找 被 分 得 最 差 的 模式 。 同 样 的 ,这 种 简单 的 方法 只 用 在 小 的 问题 上 。 在 回 到 对 多 模式 训练 
SVM 的 更 通用 的 方法 之 前 ,我 们 先 来 看 一 看 这 种 分 类 器 的 误差 率 。 

WR N, 表示 支持 向 量 的 总 数 ,那么 对 于 7 个 训练 模式 ,广义 误差 率 的 期 望 值 是 有 界 的 , 且 为 


fle] (107) 
n 


En RŽ] < 
XB BET TATRA n 的 从 (静态 ) 分 布 抽取 的 训练 集 而 言 的 。 这 个 误差 界 是 独立 于 





线性 判别 函数 m 215 


变换 (由 pg(*) 决 定 ) 后 的 向 量 维 数 。 我 们 将 在 第 9 章 再 考虑 这 个 问题 ,但 现在 可 以 非 形 式 地 按 


“ 留 一 法 的 界 ”(leave-one-out bound) 来 理解 这 一 点 。 假 设 我 们 的 训练 集 有 个 点 ,对 n 一 1 个 
ROR SVM ,然后 测试 剩 下 的 那个 点 。 如 果 这 个 点 恰好 是 全 体 nn 个 样本 的 一 个 支持 向 量 的 话 ， 
产生 一 个 误差 ;反之 就 不 产生 。 注 意 到 如 果 我 们 能 找到 一 个 能 将 数据 很 好 地 分 类 的 变换 
9(*) 一 一 那么 支持 向 量 的 期 望 个 数 是 很 小 的 一 一 这 样式 (107) 所 述 的 期 望 误 差 率 会 更 低 。 
SVM 的 训练 

现在 我 们 转 到 训练 SVM 的 问题 上 。 第 一 步 当 然 是 选择 将 输入 数据 映射 到 更 高 维 空间 的 
非 线性 p 消 数 。 通 常 这 个 选择 反映 了 设计 者 在 这 方面 的 知识 。 如 果 缺 乏 这 样 的 信息 ,可 以 选 
择 多 项 式 、 高 斯 函数 或 是 其 他 一 些 基 函数 。 映 射 后 的 空间 的 维 数 可 以 是 任意 高 的 (虽然 在 实践 
中 它 受 计算 资源 的 能 力 限制 )。 

我 们 将 从 改造 原来 的 方法 开始 ,即将 有 约束 的 权 向 量 长 度 极 小 化 问题 转化 为 无 约束 的 拉 
格 朗 日 待定 因子 问题 。 这 样 由 式 (106) 及 极 小 化 上 a 的 目标 ,我 们 构造 泛 函 


l n 
L(a, œ) = Silall’ — $ orlza'ye — 1 (108) 
k=l 


并 寻找 使 工 () 极 小 的 权 向 量 a 和 使 它 极 大 的 待定 因子 之 0。 式 (108) 的 最 后 一 项 表达 的 是 将 
样本 正确 分 类 的 目标 。 可 以 证 明 使 用 Kuhn-Tucker 构造 法 (习题 33) 可 将 这 个 最 优化 的 形式 


修改 为 极 大 化 
n 1 n ， 
L(a) = da -5 OKAZIN (109) 
和 给 出 训练 数据 的 约束 条 件 
Size =0 a 20, k=1,...,n (110) 
k=l 


虽然 这 些 方程 可 用 经 典 二 次 规划 来 求解 ,但 还 设计 了 许多 别 的 方案 ( 见 参考 文献 ) 。 


例 2 XOR 问题 的 SVM 

异 或 问题 (XOR) 是 最 简单 的 一 个 无 法 直接 对 特征 采用 线性 判别 函数 来 解决 的 问题 。 在 
x 二 《1,1)' 的 点 1 和 在 x 二 (一 1, 一 1)' 的 点 3 属于 类 o (在 图 中 用 红色 表示 ), 在 x 二 (1, 一 1) 
的 点 2 和 在 x==( 一 1,1)’ 的 点 4 属于 类 ws (在 图 中 用 黑色 表示 )。 通 过 使 用 SVM 的 方法 ,我们 
预 处 理 它 们 的 特征 ,将 它们 喘 射 到 一 个 更 高 维 的 空间 ,在 这 个 空间 中 它们 是 线性 可 分 的 。 有 许 
多 这 样 的 9 函数 ,这 里 我 们 用 最 简单 的 且 展 开 不 超过 二 次 的 :1,V2z ,V2zs,V2zizz， 好 ,好 ,这 
里 的 V2 是 为 了 规范 化 。 
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上 面 左 图 是 XOR 问题 在 原始 nr 空间 :两 个 红色 模式 属于 类 wi ,两 个 黑色 模式 属于 类 
Wo 这 4 个 训练 模式 X 被 映射 到 一 个 六 维 空 间 1 V2 2 ,M2 Xe W221 Xs ,XT1 ， o 在 这 个 空间 中 9 
可 找到 最 佳 超 平面 g(xi ,zo) 一 zixi 一 0 且 裕 量 为 2=V2。 这 个 空间 的 二 维 投影 如 右 图 所 示 。 


通过 支持 向 量 的 超 平面 是 V2ziz: =+1 , 它 对 应 于 在 原始 特征 空间 中 的 双 曲 线 ZiZz 一 十 1。 
我 们 寻求 使 式 (109) 最 大 化 , 即 


4 1 n 
t 
È ok — 5 È OKAjZkZjY Yk 
k=ł kj 


约束 条 件 为 ( 式 (110)) 


OQ — a2 +a3;—a,=0 


O< a, k=1,2,3,4 


显然 从 这 个 问题 的 对 称 性 可 取 a =a ,ao 一 ae 。 昌 然 我 们 可 以 运用 第 5. 9 节 中 描述 的 循环 梯 
度 下 降 法 ,对 这 个 小 问题 我 们 可 以 用 解析 的 技术 。 解 得 出 为 a =1/8,k=1,2,3,4. C108) 
式 中 得 最 后 一 项 可 知 这 4 个 训练 样本 都 是 支持 向 量 一 一 当然 这 有 些 特殊 ,原因 是 来 目 于 XOR 
的 高 度 对 称 性 。 

最 终 的 判别 函数 是 g(x) 二 g(xi ,zs) 二 xixz ,判定 超 平面 由 g 一 0 确定 , 它 将 训练 样本 很 好 
地 分 类 。 间 隔 可 很 容易 地 由 解 ‖ a 计算 出 ,这 里 是 5==1/ i all =V2。 右 图 给 出 了 间隔 从 五 
维 变换 空间 到 二 维 的 投影 。 习 题 30 将 要 求 你 考虑 这 个 间隔 在 男 外 的 二 维 子 空间 上 的 投影 。 


支持 向 量 机 方法 的 一 个 重要 的 优点 是 所 获得 的 分 类 器 的 复 隶 度 可 以 采用 文 持 同 量 的 个 
数 ,而 不 是 变换 空间 的 维 数 来 刻 划 。 因 此 ,SVM 往往 不 像 一 些 别 的 方法 一 样 容 易 发 生 过 拟 合 
(Coverfitting) 现 象 。 


5. 12 推广 到 多 类 问题 


并 没有 一 个 统一 的 方法 将 我 们 已 经 讨论 过 的 两 类 方法 扩充 到 多 类 的 情况 中 。 在 5.2.2 市 
中 ,我 们 定义 了 一 个 叫做 线性 机 的 多 类 分 类 器 , 它 通 过 计算 c 个 线性 判别 函数 
g(x)=wxtwo i=l,...,c 
并 令 x 为 具有 最 大 判别 的 类 来 对 样本 分 类 。 这 是 对 多 类 的 很 自然 地 推广 ,尤其 是 从 第 2 章 的 
多 变量 规范 问题 的 结论 来 看 。 可 以 很 简单 地 推广 生成 的 线性 判别 函数 : 令 y(x) 为 x A RY 
d 维 向 量 | 
gi(x) =ay i=l,..., C (111) 


如 果 对 所 有 的 Ai 都 有 og (x) > g(x) 就 将 X 归 为 mi。 

我 们 的 从 两 类 线性 分 类 器 到 多 类 线性 机 的 推广 在 线性 可 分 的 情况 下 是 最 简单 的 。 假 如 有 
一 个 标记 了 的 样本 集 Vy1»Y2 ,yn 有 ny 个 元 素 的 子 样本 集 yi 属于 类 mw ;有 nn 个 元 素 的 子 样 
KEY: 属于 类 wo ，…… A n 个 元 素 的 子 样本 集 y. 属于 类 w.。 如 果 存 在 一 个 线性 机 将 所 有 
这 些 样本 都 正确 地 分 类 的 话 , 我 们 就 称 这 个 集合 是 线性 可 分 的 。 也 就 是 说 如 果 这 些 样本 是 线 
性 可 分 的 话 , 就 存在 一 个 权 向 量 集 鲜 ，.,. a4 y, Ey; 时 ,对 所 有 jAi 都 有 | 


â yx > a yk (112) 
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5.12.1 Kesler 构造 法 
式 (112) 定 义 的 分 类 器 令 人 感 兴 趣 的 一 点 是 可 通过 这 样 的 不 等 式 组 将 多 类 问题 降 为 两 类 
问题 。 现 在 假设 有 yEy ,等 式 (112) 就 变 为 
aly, aly, > 0， j=2,...,c (113) 
这 c 一 1 个 不 等 式 集 可 看 成 是 以 下 分 类 问题 :要求 找到 c d 维 权 向 量 


a 
a2 


a= 
a. 
它 能 正确 分 类 所 有 c 一 1 个 cd 维 样本 集 
y y y 
—y 0 0 
H2= 0 713 = y Me = 0 
0 0 -y 


换 句 话说 ,每 个 8 对 应 于 将 wl 中 的 样本 和 w;“ 正 交 化 ”。 更 一 般 情 况 下 , 当 y€y; 时, 我们 可 
以 构造 (c 一 1)c 4 维 的 训练 样本 9; ,对 每 一 个 n , 它 是 cd 维 向 量 ,由 < 个 子 向 量 组 成 ,其 中 第 i 
个 子 向 量 为 y,; 第 j 个 子 向 量 为 一 y 其 余 都 为 0。 显 然 , 如 果 对 所 有 jAi MA a'n, >0 的 话 , 这 
个 线性 机 就 对 应 于 能 将 y 正确 分 类 的 @ 的 分 量 。 

这 个 将 数据 的 维 数 乘 以 c 且 将 样本 数目 乘 以 c 一 1 的 方法 被 称 为 “Kesler ik HE” (Kesler 
construction) 。 对 它 的 直接 应 用 并 不 吸引 人 ,但 它 的 重要 性 在 于 它 使 得 我 们 能 够 为 了 证 明 收 
全 性 可 通过 将 多 类 误差 校正 法 转化 为 两 类 问题 来 实现 。 

5.12.2 固定 增 量 规则 的 收敛 性 

我 们 现在 用 Kelser 构造 法 来 证 明 固 定 增 量规 则 在 线性 机 上 的 一 种 推广 的 收 钙 性 。 假 设 
有 7 个 线性 可 分 样本 集 m ,y ，…,y, ,我们 循环 使 用 它们 来 得 到 一 个 无 限 序列 ,这 样 每 个 样本 
都 会 出 现 无 限 多 次 。 令 工 ,表示 权 向 量 列 为 a (Ck),…,a.《(k) 的 线性 机 。 从 任意 一 个 初始 线性 
机 Li 开始 ,我 们 希望 用 这 个 无 限 样 本 序列 来 构造 一 个 线性 机 的 序列 ,它们 收敛 到 一 个 作为 解 
的 线性 机 上 。 我 们 要 提出 一 个 误差 校正 法 , 当 和 且 仅 当当 前 的 线性 机 错 分 了 一 个 样本 时 才 进 行 
RE. S y: 为 需要 校正 的 第 k 个 样本 ,并 假设 EY;。 因 为 y 需 要 校正 ,那么 就 至 少 存在 一 个 
j 关 1 使 得 

al (k)y* < af 于 (114) 
这 样 ,校正 上 ;的 固定 增 量 法 为 
a;(k +1) =a;(k)+y* 
aj(k + 1) =a,(k) —y* (115) 
a(k+1)=a(k), I zi HIF] 


这 样 , 目 标 类 的 权 向 量 就 增加 了 这 个 样本 , 错 分 的 类 的 权 向 量 就 减少 了 ,而 其 他 的 权 向 量 都 不 
变 ( 习 题 36, 上 机 练习 12). 
我 们 现在 证 明 这 个 算法 在 有 限 步 后 一 定 收敛 到 一 个 解 线 性 机 上 。 证 明 是 很 简单 的 。 对 每 
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一 个 线性 机 » E XTM A) A Ie E A 


a(k) 
Q; = : 
ac(k) 
对 每 一 个 样本 yO y; 都 有 如 5. 12.1 节 所 描述 的 c 一 1 个 样本 np),。 特 别 是 对 满足 等 式 (114) 的 
He y ,有 一 个 向 量 


满足 
a' (k) nj; < 0 
而 且 校正 上 ,的 固定 增 量 法 也 就 是 校正 eC OM AE RK, B 
a(k +1) = a(k)+ Ni; 


这 样 , 多 类 的 情况 就 和 两 类 的 情况 完全 对 应 上 了 ,在 多 类 的 过 程 中 ,生成 一 个 样本 序列 N, 
Pe Py ALA A] EE w a, ,0 ，,…。 由 我 们 在 两 类 问题 的 分 析 可 知 后 一 个 序列 不 会 
是 无 限 的 ,但 经 过 有 限 次 校正 后 一 定 会 终止 在 一 个 解 向 量 上 。 因 此 ,序列 Li, Ley Lys 
须 在 有 限 次 校正 后 终止 于 某 个 求解 机 中 。 

这 种 用 Kesler 构造 法 建立 多 类 方法 和 两 类 方法 之 间 的 等 价 关系 是 一 个 非常 强大 的 理论 
工具 。 它 可 以 扩展 到 将 感知 器 法 和 松弛 法 的 结果 用 到 多 类 情况 上 ,并 且 对 将 误差 校正 法 应 用 
在 位 势 函 数 也 同样 有 效 ( 习 题 38) 。 但 不 能 直接 推广 到 MSE 方法 或 线性 规划 方法 上 。 

5.12.3 MSE 算法 的 推广 

也 许 将 MSE 法 推广 到 多 类 问题 的 最 自然 最 简单 的 方法 是 将 多 类 问题 看 成 是 c 个 两 类 问 

题 的 集合 。 其 中 第 i 个 问题 是 得 到 一 个 权 向 量 a; , 它 是 方程 组 


ay= 1 MAY EY 
ay 二 一 1 HRA Y EY 


的 最 小 均 方 差 解 。 在 5. 8. 3 节 的 结论 的 指引 下 ,我们 可 以 看 到 , 当 样 本 数 非常 大 时 ,将 得 到 最 
小 均 方 差 解 遏 近 贝 叶 斯 判别 晒 数 


P(@;|x) — P (not wilx) = 2P(@;|x) — 1 


”由 这 一 点 可 以 立刻 得 到 两 个 结论 。 第 一 ,提出 一 种 修改 寻找 权 向 量 a 的 方法 ,也 就 是 使 a 为 


方程 组 
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ay=1 对 所 有 YE 
ay=O 对 所 有 Y ÉY 


的 最 小 均 方差 解 , 这 样 ay 就 以 最 小 均 方 差 副 近 PCw;|x)。 第 二 ,证 明 在 线性 机 中 得 到 的 判别 
盟 数 的 用 法 是 正确 的 , 即 对 于 一 个 y, 如 果 对 所 有 的 j 关 i 都 有 aly aly, MRT y HH w 

在 多 类 MSE 问题 中 伪 逆 和 矩阵 的 解法 可 被 写成 两 类 问题 中 类 似 的 形式 。 令 YY 为 n Xd 的 
训练 样本 矩阵 ,假定 可 以 写成 


(116) 


Y; 
Y2 
Y=; . (117) 
Y. 
标记 为 w; 的 样本 构成 站 的 行 。 同 样 , 令 A 为 dx c 权 向 量 矩 阵 
A = [aa e a] (118) 
SBA nX c HE 
B, 
B- 
B = . (119) 
B。 
其 中 B; 的 第 i 列 为 1 ,其余 列 为 0。 这 样 得 到 的 解 ” 
A=Y'B (120) 


就 是 使 得 “平方 ”误差 矩阵 (YA 一 B)'(YA 一 B) 的 对 角 线 元 素 之 和 极 小 化 的 解 ,这 里 的 Te 
Y HAX. 

这 个 结论 可 以 在 理论 上 加 以 推广 。 令 必 为 当 实 际 的 状态 是 w ARIA o, 时 造成 的 损 
失 , 并 令 B 的 第 j 个子 矩阵 为 


AL Arges dey | 
AU Anj te Àej 

Bi 二 一 | . nj j=1,..., C (121) 
hij Aaj cee Ào | 


那么 当 样 本 数 趋向 无 穷 大 时 ,得 到 的 解 A 二 Y' B 7E A a Be) HA 
别 函 数 


goi = -$ aij P (@ilx) (122) 


j=} 


它 的 证 明 可 由 5. 8. 3 节 中 给 出 的 证 明 直 接 推广 得 到 (习题 37)。 


O MERITS b: 为 B 的 第 i 列 , CYA 一 B):(YA 一 B) 对 角 线 元 素 之 和 就 等 于 误差 向 量 Ya—b 长 度 的 平方 和 。 的 解 
A 二 Yi B 不 仅 使 得 这 个 和 为 最 小 ,同时 也 使 得 这 个 和 里 的 每 一 项 都 是 最 小 。 
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本 章 小 结 


本 章 给 出 了 一 些 判别 函数 ,它们 都 是 某 个 参数 集 的 线性 函数 ,而 这 些 参数 一 般 被 称 为 权 系 
数 。 在 所 有 两 类 样本 集 的 情况 下 这 些 判别 都 能 确定 一 个 判定 超 平面 , 它 可 能 是 位 于 样本 自身 
的 原始 特征 空间 中 ,也 可 能 是 位 于 原始 特征 通过 一 个 非 线性 函数 (通常 是 线性 判别 式 ) 映 射 而 
得 到 的 空间 。 

从 更 广 的 角度 来 看 ,感知 器 算法 这 一 类 技术 是 通过 调整 参数 来 提高 与 o 的 样本 的 内 积 ， 
而 降低 与 w 的 样本 的 内 积 。 一 个 更 通用 的 方法 是 构造 准则 函数 进行 梯度 下 降 法 。 不 同 的 准 
则 函数 在 计算 复杂 度 和 收敛 性 方面 各 有 不 同 的 优 缺 点 ,没有 哪个 方法 说 是 比 别 的 方法 都 好 。 
我 们 也 可 以 通过 线性 代数 运算 来 直接 求 得 权 ( 参 数 ) ,比如 对 小 型 问题 采用 伪 逆 的 方法 。 

在 支持 向 量 机 中 ,输入 被 非 线性 函数 映射 到 一 个 更 高 维 的 空间 ,最 优 超 平面 就 是 具有 最 大 
“间隔 ”margin) 的 平面 。 支 持 向 量 就 是 用 来 确定 间隔 的 (变换 后 的 ) 样 本 ,它们 通常 是 那些 最 
难 被 分 类 , 却 能 给 分 类 器 提供 最 多 信息 的 样本 。 分 类 器 期 望 误 差 率 的 上 界线 性 依赖 于 支持 向 
量 的 期 望 个 数 。 

对 多 类 问题 ,线性 机 产生 了 由 一 些 部 分 超 平面 构成 的 判定 面 。 为 了 证 明 多 类 算法 的 收敛 
性 可 先 将 它们 转化 成 两 类 算法 再 用 两 类 法 的 证 明 。 单 纯 型 算法 用 来 寻找 由 (不 等 式 ) 约 束 的 一 
个 线性 函数 的 优化 , 它 也 能 被 用 来 训练 线性 分 类 器 。 

线性 判别 函数 虽然 很 有 用 ,对 任意 的 很 具 挑 战 性 的 模式 识别 问题 却 不 具备 足够 的 通用 性 
(比如 那些 包含 多 模 的 或 非 凸 密度 的 问题 ) ,除非 能 找到 一 个 适当 的 非 线性 映射 (p 函数 ) 。 这 
一 章 我 们 没有 给 出 如 何 选 择 这 些 函数 的 原则 ,但 我 们 将 会 在 第 6 章 讲述 这 个 主题 。 


文献 和 历史 评述 


因为 线性 判别 隆 数 是 易于 分 析 的 ,在 这 方面 有 极 大 量 的 文章 ,尽管 它 的 内 容 有 限 而 不 值得 
有 这 么 多 文章 。 历 史上 ,所 有 这 方面 的 工作 都 是 从 Ronald A. FisherL5j 的 经 典 论文 开始 的 。 
文献 [9j 很 好 地 描述 了 线性 判别 函数 在 模式 识别 中 的 应 用 , 它 提出 了 最 优化 (最 小 风险 ) 线 性 判 
别 问题 并 建议 采用 适当 的 梯度 下 降 法 从 样本 中 求 得 解 。 然 而 ,在 不 知道 内 在 的 分 布 时 ,我 们 对 
这 些 方法 的 适用 程度 的 了 解 是 很 有 限 的 ,即使 是 有 条 件 的 分 析 也 是 很 复杂 的 。 用 两 类 方法 来 
设计 多 类 分 类 器 来 自 于 文献 [16]。Minsky 和 Papert 的 《感知 器 ;一 书 L13j 强 有 力 地 指出 了 线 
性 分 类 器 的 弱点 但 可 以 用 我 们 将 在 第 6 章 中 学 习 的 方法 来 解决 。 无 差错 情况 L7 LIES 
Winnow 算法 [10] 以 及 更 一 般 情 况 下 的 后 续 工 作 在 “计算 (机 器 ) 学 习 ? 领 域 非常 有 用 ,它们 都 
允许 导出 收敛 的 界 。 

虽然 这 些 工作 都 是 基于 统计 的 ,许多 从 其 他 观点 出 发 的 模式 识别 的 文章 出 现在 20 世纪 
50 年 代 末 和 60 年 代 初 。 其 中 一 种 观点 是 神经 元 网 络 的 ,每 一 个 单独 的 神经 元 被 建 模 成 国 值 
元 一 一 即 两 类 的 线性 机 ,这 些 工 作 都 是 从 McCulloch 和 PittsL12j 的 著名 的 论文 开始 的 。 

随 着 线性 机 被 应 用 在 越 来 越 大 的 数据 集 上 , 维 数 也 越 来 越 高 ,线性 规划 由 于 受 它 的 巨大 的 
计算 量 的 限制 也 不 再 流行 。 随 机 逼近 法 便 被 应 用 在 这 类 问题 上 ,可 参见 L21j。 

支持 向 量 机 的 关键 思想 的 早期 文章 是 [2] 和 [15]。 一 个 更 广泛 的 方法 ,包括 复杂 度 的 控 
制 ,可 从 [18] 和 [14j 中 找到 一 一 我 们 将 在 第 9 章 用 到 它 。 这 个 方法 的 一 个 清晰 的 陈述 可 见于 
[4] , 它 给 我 们 的 例 2 提供 了 灵感 。Guyon 和 Stork 给 出 了 线性 机 之 间 的 关系 综述 ,其 中 包括 
了 支持 向 量 机 [8j。Kuhn-Tucher 构造 法 是 在 [6j] 中 提出 并 在 L17j 中 使 用 , 它 是 用 在 SVM 训 
练 上 ,我 们 在 习题 33 中 对 它 进行 研究 。 本 章 的 基础 结论 是 以 下 三 种 情形 之 一 。(1) 原 始 的 (最 
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初 的 ) 条 件 有 一 个 最 优 解 时 ,这 两 者 都 能 解 得 并 有 相等 的 目标 值 。(2) 原 始 条 件 是 不 可 行 时 ,两 


”者 都 是 无 界 的 或 者 不 可 行 。(3) 原 始 条 件 是 无 界 的 ,两 者 都 不 可 行 。 





5.2 节 


ho 


CA 


心 


Ol 


[ap] 


OO 


. 讨论 线性 判别 函数 法 对 以 下 二 维 的 单 模 (unimodal) #1 £ & (multimodal) 问题 的 应 用 。 


Ca) 绘制 两 个 多 模 分 布 , 要 求 有 一 个 线性 判别 函数 能 给 出 一 个 很 好 的 ,或 者 (有 可 能 的 
话 ) 是 最 优 的 分 类 器 。 

Cb) 绘制 两 个 单 模 分 布 ,要求 对 最 好 的 线性 判别 函数 都 只 能 给 出 很 差 的 分 类 效果 。 

(c) 考虑 两 个 圆周 对 称 高 斯 分 布 pxXlw)~ N(Ri,aD) A P(w;) ,i=1,2, 其 中 I 是 单位 
矩阵 且 其 他 参数 可 取 任 意 值 。 不 作 任何 计算 ,请 说 明 这 个 两 类 问题 的 最 优 判 决 边 
界 是 否 是 直线 。 如 果 不 是 的 话 ,请 给 出 一 个 最 优 判别 函数 不 是 一 条 直线 的 例子 。 


。 考虑 一 个 线性 机 , 它 的 判别 郴 数 是 gi (x) =w'x +wWi»t=1l,e sco HER FAIRKE ON, Hp 


如 果 Xl E Ri sXe ER; ,那么 Ax, + (1—A)x, ER 0<A<1, 


.图 5-3 给 出 了 用 线性 边界 分 类 来 设计 c- 类 分 类 器 的 最 流行 的 方法 。 另 一 种 方法 是 保 


EAR (s ) 个 线性 o/o; 边界 ,对 所 有 的 点 依照 这 些 边界 通过 “投票 "(voting) 来 分 类 。 


证 明 所 得 的 判定 面 是 否 一 定 要 为 凸 。 如 果 不 一 定 的 话 , 构 造 一 个 有 至 少 一 个 非 凸 判决 

区 的 例子 。 

考虑 判别 中 用 的 超 平 面 。 

Ca) 证 明 在 从 超 平面 g(x) = 二 wx 十 wo =0 到 点 x, WEKA e(x,))/ 上 wi, 且 对 应 的 
点 是 约束 条 件 g(x) ==0 下 的 满足 使 上 x 一 x ||? 最 小 的 x。 

(b) 证 明 x, 到 超 平 面 的 投影 为 


Xa 
Xp = Xa 一 8 ) 
| wl 





。 考虑 3- 类 线性 机 的 判别 晒 数 gi (x) =wix+ wa ,71 一] ,2,3。 


(a) 它 的 一 个 特例 是 x 是 二 维 的 且 阐 值 向 量 wo 为 0, 画 出 起 点 为 原点 的 这 些 权 向 量 , 向 
量 点 的 3 条 连 线 以 及 判决 边界 。 
Cb) Hx 3 个 权 向 量 都 加 上 一 个 常 向 量 c, 上 题 的 图 会 如 何 改 变 ? 


.在 多 类 的 情况 中 ,对 一 个 样本 集 , 如 果 存 在 一 个 能 将 它们 正确 分 类 的 线性 机 ,那么 这 个 


样本 集 就 被 称 为 线性 可 分 的 。 如 果 任 何 标记 为 w 类 的 样本 都 可 被 一 个 简单 的 超 平面 
分 类 的 话 ,就 被 称 为 “完全 线性 可 分 ”(totally linearly separable) 。 证 明 完 全 线性 可 分 样 
本 集 一 定 是 线性 可 分 的 ,反之 则 不 成 立 。( 提 示 :对 逆 命 题 ,你 可 以 考虑 一 下 习题 5 中 分 
类 样本 的 线性 机 ) 。 


.这 样 的 一 个 样本 集 是 被 称 为 “成 对 线性 可 分 ”(pairwise linearly separable) ,如 果 存 在 


cc 一 1)72 个 超 平面 H; ,每 个 H; 都 将 w; 和 w; 的 样本 分 类 开 来 。 证 明成 对 线性 可 分 不 
一 定 是 线性 可 分 。 


LAY Yeo ,ys} 是 一 个 具有 有 限 个 线性 可 分 的 训练 样本 集 , 令 对 所 有 i 都 满足 ay yb 
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的 向 量 a 为 解 向 量 。 证 明 具 有 最 小 长 度 的 向 量 是 惟一 的 (提示 :如 果 存 在 两 个 的 话 , 取 
它们 的 平均 向 量 )。 
9. 向 量 集 x%; ,i 二 1,2,…,n Web (convex hull) 是 所 有 形 如 


n 
x = ) Qi X; 
i=] 


的 向 量 的 集合 ,其 中 系数 a; 为 非 负 数 且 和 为 1。 当 有 两 个 这 样 的 集合 ,证 明 或 者 它们 是 
线性 可 分 的 ,或 者 它们 的 凸 包 是 相交 的 。( 为 了 证 明 这 一 点 ,假设 这 两 个 结论 都 成 立 并 
考虑 处 与 凸 包 的 交集 中 的 点 。) 
10. 一 个 分 类 器 被 称 为 “分 段 线性 机 ”(piecewise linear machine) ,如 果 它 的 判别 图 数 具 有 
形式 


gi(x) = max g;;(X), 
j=l .ni 


其 中 
i=1,---,c¢ 
j= 1,.…,n; 
Ca) 请 说 明 分 段 线性 机 如 何 能 看 成 是 对 子 类 中 的 样本 进行 分 类 的 线性 机 。 
Cb) 证 明 分 段 线性 机 的 判决 区 可 能 不 是 凸 的 ,甚至 可 能 是 多 连通 的 。 
Cc) H m =2,m, =1 时 , 画 出 一 个 一 维 gj (Xx) 例子 ,并 说 明 (b) 中 的 结论 。 
11. 设 d 维 向 量 x 的 各 分 量 是 1 或 0。 当 x 中 的 非 零 向 量 的 个 数 为 奇数 时 归 为 类 wi ,反之 
则 归 为 类 w (da 位 奇偶 校 验 问 题 )。 
Ca) 证 明 当 d>1 时 ,这 种 二 分 法 不 是 线性 可 分 的 。 
Cb) 证 明 本 问题 可 用 一 个 具有 d 十 1 维权 向 量 w 的 分 段 线性 机 (参见 习题 10) 解决。 
(提示 :考虑 具有 形式 w =a, (1,1,，…，,1) :的 向 量 。) 
5. 3 节 
12. 考虑 二 次 判别 函数 ( 式 44)) 


g(x) = vo + Do ws OY wpa 


i=l j= 
并 定义 对 称 的 非 奇 异 矩 阵 W=[vwip]。 说 明 判 决 边界 的 基本 特性 可 用 尺度 矩阵 WH 
W/ Cw Ww 一 4 wb) 描述 如 下 ， 
Ca) 如果 而 正比 于 单位 矩阵 I 那么 判决 边界 为 超 平面 。 
(b) WR W 是 正定 的 ,判决 边界 是 超 椭 圆 体 。 
(c) 如 果 W 的 本 征 值 有 正 有 负 ,判决 边界 是 超 双 曲 面 。 
5 1 2 0 
2 2 5 
—3 0 1 一 3 
2 ] 2 3 
0 
4 


gi; (x) 一 w; ;X + Wij0, 


(d) 设 w= 和 w= , 它 的 解 有 什么 特性 ”? 














—1 2 
3 3 


(e) 设 w= 和 W= , 它 的 解 有 什么 特性 ? 
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5.4 节 


13. 
14, 


推导 JORT ERRA RERA). 
考虑 平方 误差 和 准则 函数 ( 式 (43)) 


Ja) = > (ayi — bi) 


i=] 


& bi=b, RUF 6 个 训练 点 : 

| w: (1,5)! (2,9)'  (—5, —3)} 
an:(2, —3¥ (—1, —4)' (0, 27 

(a) 计算 它 的 赫本 和 矩阵。 

Cb) 假定 二 次 准则 函数 ,计算 最 优 学 习 率 ?7。 


5.5 节 


15. 


16. 


17. 


18. 


19. 


ERA a BE AY A SE BA POC BOS. DR REA a WB’ /Y. 

Ca) 用 5.5 WAAR SEH RP /(2Y) ,那么 需要 校正 的 次 数 的 最 大 值 为 

_ ja, — all? 
2ay — p? 

(b) 当 a, =0 时 ,a 为 何 值 时 使 得 ko 最 小 ? 

修改 5.5. 2 节 ( 定 理 5.1) 中 的 收 伍 性 证 明 来 证 明 以 下 校正 方法 的 收敛 性 :从 一 个 任意 

的 初始 权 向 量 a 开始 ,a(Ck) 的 校正 为 

| a(k +1) = a(k) + n(k)y* 

校正 当 且 仪 当 a (Ry 不 超过 裕 量 5 时 发 生 ,w7(k) 具 有 上 下 界 O<n< Sp, 

如 果 b 为 负数 时 情况 如 何 ? 

令 {y1，,… oy) H d 维 线性 可 分 的 有 限 样 本 集 。 

(a) 给 出 一 个 能 在 有 限 步 内 找到 一 个 分 类 向 量 的 穷 举 法 。( 提 示 : 使 用 分 量 为 整数 值 
的 权 疝 量 。) 

(b) 求 出 你 的 算法 的 计算 复杂 度 。 

考虑 准则 函数 


ko 


ha) = 2 a'y- b) 
yey (a) 
这 里 的 y(a) 是 满足 ay 和 0 的 样本 集 。 假 设 Eya 中 惟一 的 样本 。 证 明 
V J, (aCk)) =2(a' (jy 一 b)y1 且 二 阶 偏 导 矩阵 为 D==2y1y;。 用 此 结论 证 明 当 式 (12) 
采用 最 优 7Ck) 时 ,梯度 下 降 法 为 
b—ayi 

a(k +1) = a(k) + 5 
lya |l 
RE EK (28) 28 (30) FEA RIF, HE BAR A“ BY BB FORE AS ak) FAW i E 


a'y: >b WW 





yi 


5.6% 


20. 


作 图 ,解释 5. 6.2 节 的 证 明 。 注 意 保 证 是 一 般 的 情况 ,并 标 出 所 有 变量 。 


5. 8 节 


2l. 


证 明 MSE 解法 中 的 尺度 因子 a 和 Fisher 线性 判别 (5. 8. 2 节 ) 的 对 应 关系 为 
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-1 
a= Í + S (m; ~ m2)'S% (m; 一 m2) 
22. 推广 5. 8. 3 节 的 结论 ,证 明 使 得 准则 函数 
J/(a) = 5 (a'y — (X21 — à11)? + X ay — (Ai2 一 和 22)) 


yey; yey 
极 小 化 的 向 量 a 同时 使 得 J, Ca) a A i) A AE D A eR g 
(Ap, —A1) Pl |x) — Aiz 一 422 ) P (w |x) 


23. 证 明 如 果 ELyy JETER RN, ABRAM pC OKF ERMA E68) A C69) , Ap 
入 权 向 量 aC k) DST CE a te EEE lim,...€[ || aCe) —a || ?一 0, 如 式 (70) 所 述 。 
24, 考虑 准则 函数 J (a) =EL(a'y(x) — 2)? JL A Bl PH go (x). 
Ca) 证 明 


几 一 E[(ay 一 8o0)2] 一 25[(aty — go)(z ~ 80)] + El(z 一 8o)] 


Cb) 用 z 的 条 件 均值 为 g。(x) 来 证 明 使 得 J。 极 小 化 的 a 也 使 得 EL(ay 一 go)?j] 极 小 
化 。 
25. 用 在 随机 逼近 中 的 RoR +y 只 的 标量 表示 为 T C EADS Ck +H. 
(a) 证 明 它 具有 闭合 形式 的 表达 式 


n(1) 
k) = -一 一 -一 -一 一 一 
n) 1+0) Di y? 
(b) 假设 (1) >0 H O<ax< yi Sb< oo, W H X R A AR E Ck) > oo H. 
2” k) >L <, 
26. 证 明 对 Widrow-Hoff 或 LMS 法, 如果 mk)==w(1)/k, 那 么 权 向 量 序列 收敛 于 一 个 极 
限 向 量 a, 并 满足 Y(Ya 一 b) 二 0( 式 (61))。 
5.9 节 
27. 考虑 以 下 6 个 数据 点 : 
oil27 (2,-4' (-3,-1)! 
a:(2,4)6 (-—1, 一 和 (5, 0)’ 
(a) 它们 是 否 线性 可 分 ? | 
(b>) 用 正文 描述 的 方法 ,假设 R=I, 用 式 (85) 计 算 最 优 学 习 率 7. 
5. 10 节 
28. 在 5.10.2 节 给 出 的 线性 规划 公式 包含 了 一 个 极 小 化 的 人 工 变量 r*, 且 满足 约束 条 件 
ay,tt>b 及 Tr 之 0。 证 明 得 到 的 权 向 量 使 得 以 下 准则 函数 极 小 化 ， 


J,(a) = max [b; 一 ayi] 
aly; <0; 


5.11% . 

29. 定性 地 分 析 为 什么 当 样 本 取 自 截然 不 同 的 两 类 ( 即 没 有 特征 点 同时 归 为 这 两 类 ) 时 ,一 
定 存在 一 个 到 更 高 维 的 非 线 性 映射 使 得 样本 线性 可 分 。 

30. 例 2 的 图 给 出 了 一 个 XOR 问题 的 从 二 维 到 五 维 空间 具有 最 大 间隔 的 一 个 支持 向 量 
机 的 图 例 。 该 图 示 出 了 训练 样本 和 判别 函数 的 轮廓 线 , 即 它 在 由 特征 V2z; 和 V2zi zz 
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3 


— 


3 


BO 


33. 


确定 的 二 维 平面 的 投影 。 现 在 考虑 另 4 个 特征 。 除 了 这 个 例子 外 的 其 他 { > )} 一 1 一 5 


对 特征 组 合 , 作 出 样本 和 判别 孙 数 g= 士 1 对 应 的 直线 。 在 你 的 图 中 ,这 些 间隔 是 否 一 
样 ? 请 给 出 解释 。 


.通过 修改 感知 器 算法 (算法 4), 写 出 一 个 实现 “支持 向 量 机 ”(SVM) 的 简单 学 习 算 法 的 


伪 码 程序 。 对 当前 最 难 分 的 样本 的 操作 ,给 出 详细 的 数学 表达 式 。 解 释 为 什么 在 训练 
的 后 半 部 , 权 向 量 的 更 新 只 需 用 到 支持 问 量 。 


.考虑 支持 向 量 机 和 分 属 两 类 的 训练 样本 : 


wi:(l, D} (2,2)' (2,0) 
o2:(0,0) (1,0) (0,1) 
(a) 在 图 中 作出 这 6 个 训练 点 ,构造 具有 最 优 超 平面 和 最 优 间隔 的 权 向 量 。 
Ch) 哪些 是 支持 问 量 ? 
Cc) 通过 寻找 拉 格 朗 日 待定 乘 数 a; 来 构造 在 对 偶 空 间 的 解 , 并 将 它 与 (a) 中 的 结果 比 
较 。 
AS J ABER REA Kuhn-Tucker 定理 ,将 支持 向 量 机 中 的 约束 优化 问题 转化 为 一 个 
对 偶 的 无 约束 问题 。SVM 的 目标 是 寻找 满足 (分 类 ) 约 束 条 件 


za yx = Í k=1,---,n 


的 具有 最 小 长 度 的 向 量 a, 其 中 z = +1 表示 样本 y 是 属于 哪个 目标 类 。 注意 a 和 y 
是 递增 的 (初始 条 件 为 a =l Mw =D. 
(a) 考虑 联合 了 SVM 的 无 约束 条 件 的 优化 表达 式 


1 n 
L(a, a) = 5 llall? — } orlzea'ye — 1] 
k=l 


在 由 a ASP A n TS Ch Bh FF ER, 确定 的 空间 中 ,得 到 的 解 是 一 个 “ 贰 点 ”， 
而 不 是 一 个 全 局 的 极 大 值 或 极 小 值 。 请 给 出 解释 。 
(b) 下 一 步 按 下 面 给 出 的 方法 消除 这 个 人 最初 的) 函数 对 a 的 依赖 关系 (比如 通过 对 
它 的 对 偶 形 式 的 优化 来 重新 给 出 表达 式 )。 注 意 到 在 原 跑 数 的 鞍点 上 有 
dL(a*, a*) 
da 


= 0 
对 它 求 偏 导 数 并 证 明 
Safe =0 a, 20,k=1,-+-,n 
k=l 
CO 证 明 在 这 个 反射 点 上 ,最 优 超 平面 是 训练 向 量 的 线性 组 合 : 
3a = 》 okey 
k=1 


(d) 由 Kuhn-Tucker 定理 ( 见 参考 书目 ) 可 知 ,待定 乘 数 of 不 为 0 仅 当 它 对 应 的 样本 
yi 满足 z, ay, =0 时 才 成 立 。 证 明 以 下 等 式 成 立 ， 


xx[zka yg — 1) =0 kK=1,---,n 
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提示 :回忆 一 下 ,使 得 ai 不 为 0 的 样本 (比如 z ay, “DERE. 
Ce) 用 (c) 和 (d) 的 结论 消去 权 向 量 ,由 此 构造 对 偶 函 数 


L(a, a) = sla” -J akaye +9 or 
类 一 上 k=l 
(f) 用 (c) 中 的 表达 式 代 换 a* FG BAT HB R BX 


_ le = 
L(a@) = 一 也 >》 QjQkZjZ2k(yjyk) 十 》 ai 


j,k=1 j=l 
34. 重新 计算 例 2.0 ARBAB ,样本 点 换 为 
wi:(1, 5S) (—2, —4) 
w7:(2,3)' (—1,5) 
5.12 $ 
35. 在 二 维 空间 中 ,假设 属于 mw 的 每 一 个 样本 点 y; 在 w 都 有 一 个 对 应 的 点 一 y;( 对 称 )。 
Ca) 证 明 分 隔 超 平面 (如 果 存 在 的 话 ) 或 LMS 解 一 定 经 过 原点 。 
(b) 考虑 如 下 对 称 6 个 样本 点 问题 : 
of (1,2) (2,-4) y 
02:( 一 1 一 2) (—2,4) -y 
对 于 一 些 y,LMS 解 不 能 确定 分 隔 超 平面 ,请 给 出 这 样 的 y 满足 的 条 件 。 
Cc) 对 (b) 进 行 推广 :假设 w 有 yi 和 yz (CAPES). H w, 和 wi 是 对 称 的 。 当 Y3 满 
足 什 么 条 件 时 ,LMS 解 不 能 分 隔 这 些 样 本 点 ? 
36. 写 出 基于 式 (115) 的 固定 增 量 多 类 算法 的 伪 代 码 。 讨论 一 下 它 的 优点 和 缺点 。 
37. 推广 5. 8. 3 节 中 的 讨论 来 证 明 ,由 式 (120) 得 到 的 解 以 最 小 均 方 差 逼 近 式 (122) 给 出 的 
贝 叶 斯 判别 函数 。 
38. 用 Kesler 构造 法 建立 多 类 和 两 类 法 的 等 价 关系 ,将 感知 器 法 和 松弛 法 推广 到 多 类 问 
277 题 中 。 





。 上 机 练习 
一 些 练习 使 用 了 下 表 中 的 模式 数据 。 
w] w2 w3 w4 
样 本 xy X? Xi X? Xi X? Xl X2 
1 0.1 {.1 7 4.2 一 3.0 一 2.9 一 2.0 一 8 .4 
2 6.8 7.1 —1.4 一 4.3 0.5 8.7 一 8.9 0.2 
3 一 3.9 一 4.1 4.5 0.0 2.9 2.1 一 4.2 一 7.7 
4 2.0 2.7 6.3 1.6 —0.1 5.2 —8.5 一 3.2 
5 4.1 2.8 4.2 1.9 —4.0 2.2 —6,7 —4.0 
6 3.1 5.0 1.4 一 3.2 一 1 .3 3.7 —0.5 —9,2 
7 —0.8 —1.3 2.4 —4.0 一 3.4 6.2 一 .3 一 0.7 
8 0.9 1.2 2.5 —6.1 一 4.1 3.4 —8.7 —6.4 
9 5.0 6.4 8.4 3.7 一 .1 1.6 一 7.1 —9.7 
10 3.9 4.0 4.1 2.2 1.9 5.1 —8.0 —6.3 
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5.4 节 


l. 


5. 
2. 


3. 


H> 


考虑 将 基本 梯度 下 降 ( 算 法 1) 和 牛顿 法 (算法 2) 应 用 到 表 中 的 数据 上 。 

Ca) 用 这 两 种 算法 对 二 维 数据 给 出 mw 和 的 判别 。 对 梯度 下 降 法 取 Ck) =0.1, m 
出 以 迭代 次 数 为 准则 函数 的 曲线 。 

Cb) 合计 这 两 种 方法 的 数学 运算 量 。 

Co) 画 出 收 伍 时 间 - 学 习 率 曲线 。 求 出 无 法 收敛 的 最 小 学 习 率 。 

5 节 

写 出 实现 批 处 理 感 知 希 算法 (算法 3) 的 程序 。 

(a) Ka=0 开始 ,将 你 的 程序 应 用 在 o 和 o 的 训练 数据 上 。 记 下 收敛 时 的 步 数 。 

Cb) 将 你 的 程序 应 用 在 w Alo, 的 训练 数据 上 。 同 样 记 下 收敛 时 的 步 数 。 

Cc) 请 解释 一 下 它们 收敛 步 数 的 差别 。 

所 谓 的 “口袋 算法 ”(pocket algorithm) 采 用 了 可 以 被 正确 分 类 的 样本 的 最 长 序列 为 准 

则 防 数 ,并 可 与 一 些 基本 学 习 算 法 联合 使 用 。 比 如 一 种 采用 交 苦 步 进 方式 运行 的 基于 

口袋 算法 的 感知 器 算法 如 下 :有 两 个 权 向 量 集 , 一 个 是 普通 感知 器 算法 的 权 向 量 集 ; 另 

一 个 是 分 开 的 (并 不 直接 用 于 训练 ), 装 在 “你 的 口袋 ”中 的 权 向 量 集 。 刚 开始 ,两 者 都 是 

随机 选取 的 。“ 口 袋 ” 权 向 量 在 全 体 数 据 集 进行 测试 并 找 出 被 正确 分 类 的 样本 (序列 ) 行 

程 最 长 的 (在 开始 的 时 候 , 这 个 行程 是 很 小 的 ) 。 感 知 器 权 向 量 和 原来 一 样 进行 训练 ,但 

每 次 权 向 量 更 新 后 (或 有 限 次 权 向 量 更 新 后 ) ,感知 器 权 向 量 对 随机 选择 的 数据 点 进行 

测试 ,来 判断 可 以 使 正确 分 类 的 序列 行程 最 长 的 点 。 如 果 这 个 长 度 比 口袋 权 向 量 更 大 ， 

则 用 感知 句 权 回 量 替换 口袋 权 向 量 , 并 且 感 知 匿 训练 继续 进行 。 就 这 样 ,口袋 权 被 持续 

地 更 新 ,将 被 正确 分 类 出 的 点 的 行程 也 越 来 越 长 。 

(a) 写 出 基于 口袋 算法 的 单 样本 感知 器 算法 (算法 4)， 

(b) AEX w Ale, 的 样本 进行 分 类 。 口 袋 权 被 更 新 的 频 度 如 何 ? 


.通过 仿真 来 榨 客 一 些 方程 对 感知 髓 算法 的 收敛 率 的 文 配 作用 。 


(a) 写 出 25 个 分 属 两 类 的 三 维 点 ,每 个 点 分 别 服从 高 斯 分 布 paleo) ~N, D ,其 中 
Hi =0, H, = (4,4,4)', 

(b) 随机 选择 一 个 初始 权 向 量 a, 并 满足 约束 条 件 llall 一 0.1( 比 如 a 在 半径 为 0.1 的 
三 维 球 上 )。 由 这 个 初始 权 向 量 及 (a) 中 的 数据 运行 单 样本 感知 器 算法 (算法 4) 。 

(co) 根据 式 (21) 计 算 P. 

(d) 训练 结束 时 ,根据 式 (22) 计 算 7 并 验证 从 式 (25) 得 到 的 x。 和 你 的 仿真 的 结果 是 一 
致 的 。 


5. 证 明 ws 和 ow 的 前 5 个 点 不 是 线性 可 分 的 。 请 手工 构造 非 线 性 映射 ,使 得 这 些 点 在 映 


cm 


射 后 的 特征 空间 中 是 线性 可 分 的 ,并 对 它们 训练 一 个 感知 句 分 类 句 。 这 个 分 类 吉 对 剩 
下 的 点 (变换 后 ) 的 分 类 误差 如 何 ? 


. 考虑 平衡 Winnow 训练 算法 (算法 7) 的 一 个 版 本 。 分 类 用 的 样本 为 第 2 行 的 样本 。 比 


较 平 衡 Winnow 法 与 国定 增 量 单 样本 感知 器 法 (算法 4) ,比较 它们 在 有 大 量 元 余 特 征 

的 问题 中 的 收敛 率 。 

(a) 产生 一 个 具有 2000 个 100 维 样本 的 训练 集 (分 属 两 个 类 ,每 一 类 有 1000 个 样本 )， 
这 些 样本 只 要 前 10 个 特征 是 具有 信息 的 (具体 由 下 面 给 出 )。 对 属于 w 的 每 一 个 
样本 , 它 的 前 10 个 特征 是 随机 且 均 匀 地 从 Lr, 2,1=1,°5+,10 PE h FAIZ we 
中 的 样本 的 前 10 个 特征 是 随机 且 均 匀 地 从 一 2 硅 zz; 夺 一 1， i= ],..,10 中 选 出 。 这 
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两 类 样本 的 其 他 特征 均 从 一 2 委 盖 委 2 中 选 出 。 
(b) 手工 构造 出 一 个 很 明显 的 分 类 超 平 面 。 
(o) 当 只 考虑 样本 的 前 10 个 特征 时 ,调整 你 的 学 习 率 使 得 你 的 两 个 算法 得 到 大 致 相同 
的 收敛 率 。 也 就 是 假设 这 2000 个 样本 只 由 前 10 个 特征 构成 。 
Cd) 将 你 的 这 两 个 算法 应 用 在 2000 个 50 维 的 样本 上 ,这 时 每 个 样本 的 前 10 个 特征 是 
有 信息 的 而 后 40 个 却 没 有 。 画 出 分 类 误差 总 数 -迭代 次 数 曲 线 。 
Ce) 现在 将 你 的 算法 应 用 在 这 2000 个 100 维 的 样本 全 体 上 . 
(O EERE Cc) ~ Ce) 8 BAN 
5.6 fi 
7. 考虑 正文 中 描述 的 松弛 法 。 
Ca) 设 间 隔 2 一 0. 1,a(1) 一 0, 对 mw 和 os 的 数据 进行 批 处 理 松 弛 算法 (算法 8)。 画 出 准 
则 函数 作为 训练 回合 数 的 函数 的 曲线 。 
Cb) RER 2 一 0.5,a(1) 王 0, 重 复 (a) ,定量 解释 你 在 收敛 率 上 发 现 的 任何 不 同 。 
Cc) 修改 你 的 程序 使 用 单 样本 学 习 。 画 出 同 (Ca) 的 准则 函数 曲线 。 
d 讨论 它们 的 差别 及 学 习 率 。 
5. 8 节 
8. 写 出 这 样 的 一 个 简单 样本 松弛 算法 , 它 按 正 文 所 描述 的 用 式 (72) 修 正和 矩阵 R。 将 你 的 
算法 应 用 在 表 中 的 o 和 ws 的 数据 上 。 
5.9 节 
9. 编写 Ho-Kashyap 算法 (算法 11) 并 应 用 到 o 和 w 的 数据 上 。 再 应 用 到 w Alo, 的 数 
据 上 。 
5.10 节 
10. 写 一 个 处 理 属 于 二 维 2- 类 问题 的 LMS 程序 (算法 10)。 设 w @ 21 $4 :10 个 (0,0) 
的 拷贝 ,10 个 (0,1)’ 的 拷贝 和 单 点 (1, 一 2)*。 男 一 类 w。 由 10 个 (1,0) 的 拷贝 ,10 个 
(1,1)’ 的 拷贝 和 一 个 单 点 (0,3)’ 组 成 。 找 出 LMS 解 的 权 向 量 及 相应 的 超 平面 方程 。 
它 能 正确 分 类 吗 ? 这 两 类 是 线性 可 分 的 吗 ? 请 给 出 解释 。 
5. 11 节 
11. 写 一 个 执行 支持 向 量 机 算法 的 程序 。 按 下 面 给 出 的 方式 用 w， 和 的 数据 训练 一 个 
SVM 分 类 器 。 对 每 个 样本 进行 预 处 理 得 到 新 的 向 量 , 具 有 分 量 1,zi,zs yzi,zizy 和 
(a) RH o Alo, 的 第 一 个 样本 来 训练 你 的 分 类 器 并 给 出 分 类 超 平 面 及 间隔 。 
Cb) 用 前 2 个 样本 重复 (a) 中 的 操作 ( 共 4 个 点 )。 给 出 分 类 超 平面 方程 ,间隔 及 支持 
HE. 
Cc) 用 前 3 个 样本 重复 (b) 中 的 操作 ( 共 6 个 点 ) 。 然 后 再 用 前 4 个 点 ，…… ,直到 变换 
后 的 样本 在 变换 后 的 空间 中 不 再 是 线性 可 分 的 。 
5. 12 $ 
12. 写 一 个 基于 Kesler 构造 法 的 程序 , 它 是 从 基本 LMS 算法 (算法 10) 到 多 类 问题 的 推 
广 。 
Ca) 将 它 应 用 到 表 中 的 所 有 4 个 类 上 。 
Cb) 用 你 的 算法 在 两 类 的 模式 下 求 出 w;/ 非 w 的 边界 ,i 二 1,2,3,4 。 找 出 任何 在 你 的 
系统 下 分 类 是 模糊 的 区 域 。 即 你 的 分 类 器 对 该 区 中 的 点 无 法 分 类 。 
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多 层 神 经 网 络 


6.1 引言 


在 第 5 章 中 ,我 们 介绍 了 一 系列 训练 分 类 器 的 方法 ,这 些 分 类 器 通过 可 修改 的 权 值 将 输入 
单元 和 输出 单元 相连 。 特 别 值得 注意 的 是 LMS 算法 , 它 提 供 了 一 种 可 以 降低 误差 的 梯度 下 
降 法 ,即使 在 模式 并 非 线性 可 分 时 也 同样 适用 。 不 幸 的 是 ,从 这 些 网 络 得 到 的 超 平 面 判 别 函 
数 , 以 及 得 出 的 一 类 解法 ,虽然 在 解决 部 分 实际 问题 时 取得 了 很 好 的 效果 ,但 在 另外 一 些 应 用 
中 却 无 能 为 力 。 确 实 还 存在 许多 问题 ,在 其 中 单纯 用 线性 判别 函数 对 于 获得 最 小 误差 率 还 显 
得 很 不 够 。 

然而 ,通过 明智 选择 一 个 非 线 性 9 陋 数 ,我 们 可 以 得 到 任意 判决 边界 ,特别 是 可 以 得 到 对 
应 最 小 误差 率 的 判别 分 界面 。 当 然 ,主要 的 困难 是 如 何 选择 最 合适 的 非 线性 函数 。 一 个 亦 干 
的 方法 是 选取 一 个 完备 的 基 郴 数 集合 (比如 多 项 式 函 数 集 )。 但 这 样 显然 不 可 行 ,因为 分 类 器 
会 有 太 多 的 未 知 参数 需要 估计 ,而 训练 模式 总 是 太 有 限 ( 第 9 章 )。 再 或 者 ,我 们 可 能 有 一 些 关 
于 分 类 问题 的 先 验 知识 ,这 可 以 引导 我 们 进行 非 线 性 孔 数 的 选择 。 但 是 如 果 缺 少 这 些 信 息 , 至 
今 尚 未 发 现 可 以 自动 找到 这 些 非 线 性 函数 的 原则 性 方法 或 自动 生成 法 。 我 们 所 寻求 的 是 一 种 
在 训练 线性 判别 郴 数 的 同时 学 习 其 非 线 性 程度 的 方法 ,这 就 是 多 层 神 经 网 络 或 多 层 感 知 器 : 决 
定 非 线性 映射 的 参数 的 学 习 是 与 控制 线性 判别 函数 的 参数 的 学 习 同 时 进行 的 。 

回顾 前 面 章 节 中 讲 到 的 两 层 网 的 缺陷 ”, 并 考虑 三 层 网 或 四 层 网 是 如 何 克 服 这 些 问 题 的 。 
也 就 是 说 ,多 层 网 络 是 如 何 ,至 少 在 原理 上 ,提供 了 一 个 对 任意 分 类 问题 寻求 最 优 解 的 方法 。 
其 实 多 层 神 经 网 络 没什么 神秘 的 ,基本 上 执行 的 仍然 是 线性 判决 ,只 是 该 执行 过 程 是 在 输入 信 
号 的 非 线 性 映射 空间 中 进行 的 。 这 种 网 络 的 主要 优点 是 它们 提供 了 相当 简单 的 算法 ,人 允许 非 
线性 函数 的 具体 形式 可 以 通过 训练 样本 获得 。 因 此 这 类 模型 非常 强大 ,具有 很 好 的 理论 基础 ， 
可 以 应 用 到 大 量 的 实际 问题 中 。 

一 种 很 流行 的 训练 多 层 网 络 的 方法 , 即 反 回 传播 算法 (backpropagation, 简称 为 “ 反 传 算 
法 ”或 “BP 算法 ”) ,或 者 “广义 6 准则 ”, 是 基于 误差 的 梯度 下 降 准 则 ( 即 LMS 算法 ) 的 一 种 自然 
延伸 。 我 们 将 深入 学 习 反 问 传 播 算法 ,首先 因为 它 功 能 强大 ,易于 理解 ;其 次 因为 其 他 很 多 训 
练 方 法 都 可 看 作 是 对 反 疝 传播 法 的 一 种 变形 或 修改 。 即 使 对 拥有 成 千 上 万 个 参数 的 复杂 模 
型 ,对 它 的 反 回 传播 训练 也 是 十 分 简单 的 。 并 且 由 于 有 直观 的 图 示 表 示 以 及 简单 的 模型 设计 ， 
设计 者 可 以 方便 而 快捷 的 测试 不 同 的 模型 。 因 此 ,神经 网 络 是 一 种 可 以 适应 复杂 模型 的 非常 
灵活 的 启发 式 的 统计 模式 识别 技术 。 反 向 传播 法 在 概念 和 算法 上 的 简便 性 ,以 及 它 在 众多 的 


实际 问题 中 的 成 功 应 用 ,有 助 于 解释 为 什么 它 在 自 适 应 模式 识别 领域 占据 了 主流 地 位 。 


O ” 有些 作 者 将 这 种 网 络 描述 成 单 层 网 络 ,因为 它们 只 有 一 层 可 修改 的 权 值 ,但 是 这 里 我 们 将 基于 单元 的 层 数 来 称呼 
它们 为 两 层 网 。 
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虽然 反 向 传播 的 基本 理论 很 简单 ,这 里 仍然 有 一 些 启 发 式 的 技巧 ,其 中 有 些 很 微妙 ,可 以 
用 来 改进 性 能 和 提高 训练 速度 。 通 过 对 网 络 本 号 及 其 功能 的 分 析 ,我们 可 以 对 输入 值 的 范围 、 
初始 权 值 .期 望 输出 等 参数 值 作出 明知 的 选择 。 同 时 还 将 讨论 其 他 候选 训练 方案 ,比如 某 些 方 
案 能 够 对 训练 数据 做 出 更 快 反应 ,或 者 根据 训练 数据 自动 调整 复杂 度 。 

网 络 结构 或 拓扑 在 神经 网 络 分 类 中 起 着 重要 的 作用 。 最 优 拓 扑 与 手头 的 实际 问题 有 关 。 
这 使 得 神经 网 络 的 另 一 个 好 处 尤为 明显 : 即 ,对 问题 非 正 式 或 局 发 式 的 知识 可 以 通过 对 隐 含 层 
的 数目 、 节 点 单元 个 数 、 和 反馈 三 点 的 数目 等 选择 ,而 轻而易举 地 退 入 到 网 络 结构 中 。 因 此 ,网 
络 拓扑 的 设置 一 般 也 是 一 种 启发 式 的 选择 。 通 过 设置 网 络 拓 扑 来 选择 模型 ,以 及 通过 反问 传 
播 算法 来 估计 参数 ,以 上 操作 在 实际 中 的 简易 性 使 得 分 类 艇 的 设计 者 能 够 十 分 简便 地 测试 各 
种 可 选 的 模型 。 

一 个 深层 次 的 关于 神经 网 络 技 术 应 用 问题 涉及 到 正则 化 (regularization), 也 就 是 选择 或 
调整 网 络 的 复杂 程度 。 虽 然 输 入 和 输出 节点 的 数目 可 以 由 输入 特征 空间 和 类 别 数 给 出 ,但 是 
网 络 中 总 的 权 值 或 参数 的 数量 却 并 非 如 此 ,至 少 不 那 么 直接 。 如 果 网 络 有 太 多 的 未 知 参 数 , 则 
网 络 的 推广 能 力 将 变 得 很 差 ( 即 ,过 拟 合 ;。 相 反 , 如 有 果 网 络 参 数 太 少 , 训 练 数据 将 得 不 到 充分 
的 学 习 。 如 何 调 整 网 络 的 复杂 程度 以 达到 最 好 的 推广 能 力 呢 ? 我 们 将 试探 多 种 不 同 的 方法 来 
调整 复杂 度 ,并 且 将 在 第 9 章 重 新 考虑 这 些 方法 的 理论 基础 。 

读者 必须 记 住 的 很 重要 的 一 点 是 :神经 网 络 并 没有 让 设计 者 放弃 对 数据 和 问题 领域 的 了 
解 和 掌握。 网 络 提供 了 一 种 功能 强大 且 快 捷 的 构造 分 类 器 的 工具 ,有 了 这 些 工 具 和 技术 ,就 可 
以 通过 对 大 量 问题 的 重复 实验 和 分 析 来 获得 直觉 和 专业 知识 。 


“6.2 前 馈 运算 和 分 类 


图 6-1 显示 的 是 一 个 简单 的 三 层 神经 网 络 。 这 个 网 络 由 一 个 输入 层 ,一 个 隐 含 层 ” 和 一 个 
输出 层 组 成 。 它 们 由 可 修正 的 权 值 互 连 ,这 些 权 值 由 层 间 的 连 线 表示 。 除 了 连接 输入 单元 ,每 
个 单元 还 连接 着 一 个 偏 置 (bias)。 显 然 , 此 网 络 是 第 5 章 中 所 研究 的 两 层 网 络 的 推广 。 这 些 
单元 的 功能 近似 基于 生物 学 上 的 神经 元 ,所 以 它们 有 了 时 也 被 称 作 “神经 元 ”(neuron)。 我 们 要 
研究 的 是 用 这 种 网 络 来 做 模式 识别 。 在 模式 识别 里 ,输入 单元 提供 特征 量 , 而 输出 单元 激发 的 
信和 号 则 成 为 用 来 分 类 的 判别 函数 的 值 。 

为 了 使 读者 对 这 些 概念 和 前 馈 运 算 加 深 理解 ,我 们 用 下 面 的 例子 来 说 明 。 考 虑 如 下 这 个 
几乎 是 最 简单 的 非 线 性 问题 : 异 或 (XOR) 问 题 ( 图 6-1)。 一 个 三 层 网 络 可 以 成 功 解决 这 个 问 
题 ,而 一 个 线性 判别 机 却 解决 不 了 。 

每 一 个 二 维 输入 向 量 都 提供 给 输入 层 ,而 每 一 个 输入 单元 的 输出 结果 则 等 于 输入 癌 量 中 
对 应 的 那个 分 量 。 隐 单元 对 它 的 各 个 输入 进行 加 权 求 和 运算 而 形成 标量 的 “ 净 激 活 ”“(Cnet acti- 
vation, 或 简称 net) 。 也 就 是 说 , 净 激 活 是 输入 信和 号 与 隐 含 层 权 值 的 内 积 。 如 第 5 草 那 样 ,为 
简单 起 见 ,我 们 增 广 输入 向 量 ( 附 加 一 个 特征 值 x 二 1) 和 权 向 量 ( 附 加 一 个 值 w,) ,这 样 就 可 以 
把 净 激 活 写 成 


d d 
net; = ) XiWji two = ) XiWji = WX (1) 
i=l 二 0 


O ”我 们 将 任何 既 不 是 输入 也 不 是 输出 的 单元 称 为 “ 隐 ” 单 元 ,因为 它们 的 激发 并 不 为 外 部 环境 直接 所 “ 见 ” ,该 外 部 环 
境 就 是 输入 或 输出 。 
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图 6-1 两 位 奇偶 校 验 或 异 或 问题 可 以 用 三 层 网 络 解决 。 底 层 是 二 维特 征 空 间 zi zz ,有 4 个 模式 需 
要 分 类 。 图 中 间 是 三 层 的 网 络 。 输 入 单元 是 线性 的 ,它们 的 特征 量 通过 乘 性 权 值 分 布 到 隐 单 元 。 这 
里 隆 单元 和 输出 单元 都 是 线性 阔 值 单元 ,接受 由 各 个 输入 信号 和 对 应 权 值 的 乘积 的 求 和 信号 ,以 产生 
净 激 沙 , 如 图 所 示 , 如 果 这 个 和 大 于 等 于 0, 则 输出 一 个 十 1, 反 之 则 输出 一 1。 实 线 表 示 正 的 或 “兴奋 ” 
权 值 ,虚线 表示 负 的 或 抑制 ” 权 值 。 权 值 的 大 小 用 图 中 的 线 的 粗细 表示 ,同时 也 有 数字 标识 。 单 个 的 
输出 单元 将 隐 含 层 单元 输出 的 加 权 和 信号 与 偏 置 加 起 来 以 获得 净 激活 ,如 果 这 个 和 大 于 或 等 于 0, 该 
单元 输出 十 1], 反 之 则 输出 一 1。 我 们 可 以 用 一 个 图 来 表示 每 个 单元 的 输入 一 输出 关系 或 者 叫 * 激 活 函 
BL" —— f Cnet) Xf met 的 函数 。 这 个 函数 ,在 输入 单元 里 是 线性 的 ,在 偏 置 项 里 是 一 个 常数 ,而 其 他 的 
是 一 个 阶梯 画 数 或 符号 函数 。 我 们 说 这 个 网 络 具 有 2-2-1 全 连接 的 拓扑 结构 ,表达 的 是 后 续 各 层 的 
单元 (不 包括 偏 置 ) 的 互 连 个 数 


这 里 下 标 i 是 输入 层 单元 的 索引 值 ,; 是 隐 舍 层 单 元 的 索引 。w; 表示 输入 层 单元 ; 到 隐 含 层 单 
元 7 的 权 值 。 为 了 跟 神经 生物 学 作 类 比 ,这 种 权 或 连接 被 称 为 “ 突 触 ”, 连 接 的 值 叫 “ 突 触 权 ”。 
每 一 个 隐 含 层 单元 激发 出 一 个 输出 分 量 , 这 个 分 量 是 它 激活 的 非 线性 函数 , f(net), 即 

yj = f (net;) (2) 


图 6-1 示例 是 一 个 简单 的 阅 值 函 数 或 符号 (sign) 函 数 。 


l net =O 


f (net) = Sgn(net) = | ai net wet (3) 


但 是 很 快 我 们 会 发 现 , 其 他 函数 拥有 更 符合 要 求 的 特性 而 被 更 广泛 地 应 用 。 这 个 f Og 
也 叫 激 活 函 数 (activation function) 或 一 个 单元 的 “ 非 线性 ”。 它 有 着 第 5 章 所 讨论 的 2 函数 的 
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功能 。 假 设 不 同 隐 含 层 和 输出 单元 的 “ 非 线性 ?是 相同 的 ,尽管 不 是 严格 的 相同 。 
每 个 输出 单元 在 隐 含 层 单元 信号 的 基础 上 用 类 似 的 方法 可 以 算出 它 的 净 激 活 如 下 : 


nen = X yjwy + wio = Vy; wy = wxy (4) 
j=! j=0 
这 里 下 标 k 为 输出 层 的 单元 索引 ,np 表示 隐 含 层 单元 的 数目 。 我 们 把 偏 置 单元 在 数学 上 看 成 
等 价 于 一 个 输出 恒 为 y==1 的 隐 含 层 单元 。 此 例 中 仅 有 一 个 输出 单元 。 但 是 考虑 一 个 更 一 般 
的 情况 , 须 将 其 输出 单元 记 为 x ,这 样 输出 单元 对 net 的 非 线 性 函数 就 是 
一 f (net) (5) 


图 中 我 们 假设 这 个 非 线 性 函数 也 是 一 个 符号 函数 。 显 然 , 输 出 z, 也 可 看 成 是 输入 特征 向 量 x 
的 函数 。 当 有 c 个 输出 单元 时 ,可 以 这 样 来 考虑 此 网 络 ,计算 c 个 判别 函数 = = eg C ,并 通过 
使 判别 函数 最 大 来 将 输入 信号 分 类 。 在 只 有 两 种 类 别 的 情况 下 ,一般 只 采用 单个 输出 单元 ,而 
用 输出 值 = 的 符号 来 标识 一 个 输入 模式 。 

容 多 验证 ,上 述 给 定 权 值 的 三 层 网 络 的 确 可 以 解决 异 或 (XOR) 问 题 。 计 算 yi 的 隐 单 元 
的 作用 如 同 两 层 感 知 器 , 它 计 算 判 决 边界 x, +a, +0.5=0, WAHE xz, 十 zs 十 0.5 之 0 导致 
y1 二 1, 而 其 他 输入 导致 yi 二 一 1]。 同 样 的 , 男 一 隐 单 元 计算 的 判决 边界 zi 十 zs 一 1.5 二 0。 只 
A y My BST +) ,最 终 输 出 单元 才 激 发 出 z= 二 十 1。 使 用 人 逻辑 计算 的 术语 ;这些 单元 如 同 
门 , 其 中 第 一 个 隐 单 元 是 一 个 或 门 (OR) ,第 二 个 隐 单 元 是 一 个 与 门 (AND) ,输出 单元 执行 

Zk= y; AND NOT y2=(xX;OR x2) AND NOT (x) AND x2) 


(6) 
= X; XOR X2 


这 样 就 得 到 了 图 中 所 示 的 适当 的 非 线 性 判决 区 域 一 一 异 或 问题 就 解决 了 。 
6.2.1 一 般 的 前 馈 运算 

从 上 面 的 示例 可 明显 看 出 , 非 线 性 多 层 网 络 ( 由 输入 单元 , 隐 单 元 ,输出 单元 组 成 ) 比 类 似 
的 没有 隐 单 元 的 网 络 更 具 运 算 能 力 和 表达 能 力 。 就 是 说 , 非 线性 多 层 网 络 可 以 实现 更 多 的 函 
数 。 的 确 , 从 6. 2. 2 节 我 们 将 看 到 ,只 要 给 出 足够 的 隐 单 元 ,任何 一 般 形 式 的 函数 都 可 以 用 它 
来 表示 。 

显然 ,我 们 可 以 把 上 面 的 讨论 推广 为 更 多 的 输入 单元 其 他 的 非 线 性 函数 .任意 多 个 输出 
单元 。 在 分 类 方面 ,我 们 有 c 个 输出 单元 ,每 个 类 别 一 个 ,每 个 输出 单元 产生 的 信号 就 是 判别 
函数 g(x) 。 综 合 方程 (1),(2),(4),(5) ,可 得 到 判别 函数 如 下 : 


& (xX) = Zk = (È Wey f (È WjiXi + wn) + na) (7) 


i=l 


这 就 是 一 类 可 以 用 三 层 神 经 网 络 实现 的 函数 。 一 般 的 ,正如 在 6. 8.1 WP HO ABE aI R 
数 不 一 定 是 符号 函数 。 且 篆 常 要求 激 活 函数 应 该 是 连续 可 微 的 。 甚 至 允许 输出 层 的 激活 函数 
同 隐 含 层 的 不 一 样 ,或 者 对 每 一 个 单元 而 言 都 有 不 同 的 激活 图 数 。 尽 管 以 后 将 用 到 这 些 网 络 ， 
但 为 了 简化 数学 分 析 以 及 揭示 本 质 属性 ,我们 可 以 暂时 先 假设 所 有 的 激活 函数 是 一 样 的 。 
6.2.2 多 层 网 络 的 表达 能 力 
en 
实现 呢 ? 2 
就 是 说 ,任何 从 输入 到 输出 的 连续 映射 函数 都 可 以 用 一 个 三 层 非 线性 网 络 实现 ， 条 件 是 给 凡是 
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够 数量 的 隐 单 元 ny 、 适 当 的 非 线 性 函数 和 权 值 。 特 别 地 ,任何 后 验 概率 都 可 以 用 一 个 三 层 网 
络 表示 。 正 如 第 2 章 中 的 做 法 一 样 ,在 = 类 分 类 实例 中 ,我 们 可 以 仅仅 对 网 络 的 输出 作用 一 个 
maxL 函数 来 得 到 正确 的 判决 边界 。 

特别 地 , 苞 尔 莫 戈 罗 夫 证 明了 :只 要 适当 选取 的 函数 Si 和 Yi ,任何 连续 函数 g(Cx) 都 可 以 定 
义 在 单位 超 立 方 体 下 上 (三 [0, 1 ,2 之 2), 即 可 以 表示 为 


2n+] d 
| g(x) = OF (È wua) (8) 
j=] i=} 

可 以 通过 调节 我 们 所 关心 的 输入 信号 的 尺度 让 它 落 在 超 立 方 体 里 ,这 个 条 件 在 特征 空间 里 就 
不 受 限制 了 。 方 程 (8) 用 神经 网 络 的 术语 表达 为 :2n 十 1 个 隐 单 元 中 的 每 个 都 把 4 个 非 线 性 函 
数 的 和 作为 输入 ,每 个 输入 特征 x; 对 应 一 个 非 线 性 函数 。 每 个 隐 单 元 输出 的 是 其 总 净 输 入 的 

非 线 性 函数 s。 输 出 单元 仅 输出 所 有 隐 单 元 贡献 的 和 。 
但 是 ,由 于 某 些 原因 , 戈 尔 莫 戈 罗 夫 定理 和 实际 神经 网 络 的 关系 有 一 点 点 牵强 和 空洞 。 事 
实 上 , BK Av; 都 不 是 通过 神经 网 络 中 非 线性 的 简单 加 权 和 。 其 实 这 些 函 数 是 很 复杂 的 。 
由 于 一 些微 妙 的 数学 上 的 原因 ,它们 不 是 ,也 不 能 是 平滑 的 。 我 们 马上 会 发 现 ,平滑 性 对 梯度 
下 降 法 学 习 是 很 重要 的 。 更 重要 的 是 , 艾 尔 莫 戈 罗 夫 理论 对 怎样 基于 数据 寻找 非 线性 函 

数 一 一 基于 网 络 的 模式 识别 的 中 心 问题 一 一 提 及 很 少 。 
对 三 层 网 络 通用 表达 能 力 的 更 直观 的 证 明 由 傅 里 叶 理 论 提 出 。 根 据 傅 里 叶 理 论 , 任 何 连 
续 函 数 g(x) 都 可 以 用 一 些 ( 可 能 无 限 个 ) 谐 波 函数 的 和 来 无 限 和 逼近 (习题 2) 。 可 以 想像 某 个 网 
络 , 它 的 隐 单 元 执行 这 种 谐 波 函数 。 与 傅 里 叶 综 合 系数 相关 的 隐 含 层 到 输出 层 的 权 值 使 得 整 
个 网 络 可 以 执行 期 望 的 函数 。 非 正式 地 说 ,我 们 不 需要 为 目标 函数 建立 类 似 傅 里 叶 综 合 Csyn- 
thesis) 的 谐 函 数 。 相 反 ,不 同 输入 区 的 足够 多 的 不 同 幅度 .不 同 符号 的 “ 波 包 ”(bump) 可 以 组 
合 起 来 给 出 我 们 所 希望 的 函数 。 这 些 局 域 化 的 “ 波 包 ” 可 以 有 多 种 实现 方法 ,比如 适当 分 组 的 
sigmoid 型 (S 型 ) 激 活 函 数 (图 6-2) 。 用 傅 里 叶 类 比 和 波 包 的 结构 只 是 一 些 概念 性 的 工具 , 它 
们 并 不 能 描述 网 络 究竟 怎样 运行 。 简 单 地 说 ,这 些 并 不 是 神经 网 络 怎样 “工作 ”的 描述 :我们 并 
没有 找到 如 何 通过 训练 (6. 3 节 ) 简 单 的 网 络 以 建立 起 类 似 傅 里 叶 的 表达 式 , 网 络 也 没有 学 习 

对 S 型 函数 进行 分 组 以 获得 子 波 包 。 但 是 ,这 些 类 比 有 助 于 解释 多 层 网 络 的 表达 能 力 。 

图 6-2 一 个 
2-4-1 网 络 ( 含 
偏 置 ) 以 及 不 同 
单元 的 响应 天 
数 。 每 个 隐 含 和 
输出 单元 都 有 S 
型 激活 函数 
fO. w R A 
示 , 每 个 隐 单 元 
的 输出 都 是 反问 
且 成 对 的 ,所 以 
它们 在 输出 单元 
产生 了 “ 波 包 ”。 
若 给 出 足够 多 的 
隐 单 元 ;任何 从 
输入 到 输出 的 连 
续聘 数 都 可 用 这 


种 网 络 以 任意 精 
度 近似 
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价值 在 理论 方面 ,而 实用 意义 并 不 大 。 因 为 这 些 构造 性 的 结论 中 既 没 有 给 出 隐 单 元 数 , 也 没有 
给 出 适当 的 权 值 。 即 使 假定 存在 一 种 构造 性 的 证 明 , 它 在 模式 识别 中 也 没 多 大 用 处 ,因为 我 们 
并 不 知道 期 望 图 数 是 什么 ,一 般 来 说 它 跟 训练 模式 之 间 有 很 复杂 的 联系 。 总 之 ,这 些 网 络 表达 
能 力 的 结论 使 我 们 充满 信心 ,但 对 设计 和 训练 神经 网 络 几 乎 没有 什么 实际 效用 ,而 后 者 才 是 模 
式 识别 的 主要 任务 (图 6-3). 

图 6 3 虽然 :个 两 i 

层 网 络 分 类 器 只 能 实 

现 一 个 线性 判决 边 

界 , 如 果 给 出 足够 数 

量 的 隐 单 元 ,三 层 、 四 

层 及 更 多 层 网 络 就 可 

以 实现 任意 的 判决 边 

界 。 各 判决 区 不 必 是 

目的 或 是 单 连通 的 











6.3 反问 传播 算法 


我 们 已 经 看 到 ,任何 从 输入 到 输出 的 映射 函数 都 可 以 由 一 个 三 层 网 络 来 执行 。 现 在 回 到 
大 键 问题 上 来 :根据 训练 样本 和 期 望 输出 来 设置 合适 的 权 值 。 

反 同 传播 算法 (或 简称 为 “ 反 传 算法 ”) 是 多 层 神 经 网 络 有 监督 训练 中 最 简单 也 最 一 般 的 方 
法 之 一 ,七 是 第 5 ERTE LMS 算法 的 自然 延伸 。 其 他 方法 可 能 更 快 或 具有 其 他 一 些 特点 ,但 
很 少 比 它 更 有 局 发 价值 。LMS 算法 可 以 工作 于 两 层 系统 ,这 是 因为 对 于 每 个 输出 单元 ,正比 
于 实际 输出 和 期 望 输出 之 间 的 平方 误差 值 都 可 以 估计 出 。 类 似 地 ,在 三 层 网 络 中 ,可 以 很 直接 
地 根据 其 误差 ,找到 隐 含 层 到 输出 层 的 权 值 。 其 实 , 这 种 依赖 关系 类 似 于 两 层 网 ,所 以 学 习 规 
则 也 是 相同 的 。 

中 是 应 该 怎样 训练 输入 层 到 隐 传 层 的 权 值 呢 ? 正 是 这 些 权 值 控 制 着 输入 向 量 的 非 线 性 变 
换 。 如 果 一 个 隐 单 元 的 “适当 ”输出 对 每 种 模式 都 是 已 知 的 ,那么 输入 到 隐 含 层 的 权 值 就 可 以 
岗位 到 很 接近 人 它 。 然 而 , 究 竞 隐 含 层 单元 的 输出 应 该 是 什么 ,并 没有 一 个 明确 的 论述 。 这 叫 信 
用 分 配 (credit assignment) 问 题 。 反 向 传播 的 威力 正 是 在 于 允许 我 们 对 每 一 个 隐 单 元 计算 有 
效 误差 ,并 由 此 推导 出 一 个 输入 层 到 隐 传 层 权 值 的 学 习 规 则 ， 

网 络 有 两 类 基本 运算 模式 :前 馈 和 学 习 。 对 于 前 馈 运 算 , 比 如 前 面 的 例子 里 描述 的 XOR 
问题 ,包括 了 提供 一 个 模式 给 输入 单元 、 在 网 络 间 传 递 信号 ,然后 在 输出 单元 得 到 输出 。 对 于 
有 监督 的 学 习 , 包 括 了 提供 一 个 输入 模式 ,并 改变 网 络 参数 使 实际 输出 更 加 接近 期 望 教师 信和 号 
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或 目标 值 。 图 6-4 显示 了 一 个 三 层 网 络 以 及 我 们 所 用 的 标注 。 


目标 向 量 { fi eee ti eee 


网 络 输 出 向 量 z | 


Wj FS 隐 合 层 


Xt X2 Xi Xd 
输入 模式 天 x1 x2 ese x; eee xy 


图 6-4 一 个 dnye 完全 连接 的 三 层 网 络 以 及 我 们 用 的 标注 。 在 前 馈 操作 里 ,一 个 4 维 的 输入 模 
A x 被 提供 给 输入 层 ; 每 个 输入 单元 发 送 它 所 对 应 的 分 量 ne n 个 隐 单 元 中 的 每 一 个 都 计算 它 
的 净 激 活 能 net; , 它 是 输入 层 信和 号 和 隐 单 元 权 值 wj 的 内 积 。 隐 单元 的 输出 是 y= fet), fO È 
一 个 非 线 性 转换 函数 ,这 里 显示 的 是 sigmoid, c 个 输出 单元 的 工作 原理 类 似 于 隐 含 层 单元 的 , 计 
算 净 激活 能 net, , 即 隐 单元 信号 和 输出 单元 权 值 的 内 积 。 网 络 的 最 终 发 送信 号 z =f (net; END 
类 用 的 判别 函数 。 网 络 训练 过 程 中 ,这 些 输 出 信号 和 一 个 引导 向 量 或 目标 向 量 t 作 比较 ,任何 差 值 
都 用 于 整个 网 络 的 权 值 训练 


6.3.1 网 络 学 习 

基本 的 学 习 方 法 是 从 一 个 未 训练 网 络 开始 ,向 输入 层 提供 一 个 训练 模式 ,再 通过 网 络 传递 
信号 ,并 决定 输出 层 的 输出 值 。 此 处 的 这 些 输 出 都 与 目标 值 进行 比较 ; 任 一 差 值 对 应 一 误差 。 
该 误差 或 准则 函数 是 权 值 的 某 种 标量 函数 , 它 在 网 络 输出 与 期 望 输出 匹配 时 达到 最 小 。 权 值 
加 着 可 以 减 小 误差 值 的 方向 调整 。 现 在 我 们 来 看 一 种 基于 单个 模式 的 学 习 规 则 ,以 后 将 探讨 
其 他 协议 。 

我 们 考虑 一 个 模式 的 训练 误差 , 先 定义 为 输出 端的 期 望 输出 值 i, (由 教师 信号 给 出 ) 和 实 
际 输出 值 z 的 差 的 平方 和 ,这 很 像 两 层 网 络 里 的 LMS 算法 。 


1 < 1 
Jw) = 5) te — = Silt — z? (9) 
k=] 


这 里 4 和 z 是 长 度 为 c 的 目标 向 量 和 网 络 输出 向 量 ;w 表示 网 络 里 所 有 的 权 值 。 
反问 传播 学 习 规 则 是 基于 梯度 下 降 法 的 。 权 值 首先 被 初始 化 为 随机 值 ,然后 向 误差 减 小 
的 方向 调整 。 
Aw = -7— (10) 
或 者 用 分 量 形 式 表 示 ， 


Awpg = 一 ?一 一 一 (11) 
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其 中 7 了 是 学 习 率 , 仅 表 示 权 值 的 相对 变化 尺度 。 方 程 (10) 和 (11) 的 优点 在 于 它们 的 简明 :它们 
仅 需 要 我 们 在 权 值 空间 中 只 进行 一 步 以 减 小 准则 了 艺 数 ,由 式 (9) 可 以 清楚 地 知道 这 个 准则 函数 
不 可 能 为 负 的 ,而 且 , 该 学 习 规则 保证 学 习 一 定 可 以 收敛 (病态 情况 除外 )。 和 迭代 算法 在 第 
次 迭代 时 取 一 个 权 向 量 并 将 它 更 新 为 

w(m + 1) = w(m) + Aw(m) (12) 
其 中 m 是 特定 模式 的 索引 。 

我 们 现在 对 三 层 网 络 分 析 方 程 (11)。 考 虑 第 一 个 隐 含 层 到 输出 层 的 权 值 ws 。 由 于 误差 

并 不 是 明显 决定 于 wi ,我 们 必须 使 用 链 式 微分 法 则 : 

oJ OJ dnet, 5 Onet, 














(13) 


= k 
Wki Onet, IW,; 0 wekj 


其 中 单元 的 敏感 度 (sensitivity) 定 义 为 
5, = —dJ/dnet, (14) 


Ue BBR PE HA TEAS Fe 0 FB A A RA. 9) GP ATT A BE a 
BG 0, A 








ôk = -5 一 -二 5 = (tk — Zk) f (netk) (15) 
A (13) BY Beles — 2b E a h A (4a: 
anet, 
TA = yj (16) 
综 上 所 述 EARRA T hee aia h E E eS A 
Awk; = ndxy) = nthe — zk) f (netk) yj (17) 


Tia ACE VERS TOL FR, f Cnet, = net f Cnet =1, WROD RRERS EPMA 
到 的 LMS 规则 。 
输入 层 到 隐 含 层 的 权 值 学 习 规 则 更 微妙 ,的 确 , 这 正 是 信用 分 配 问 题 求解 的 关键 。 对 
式 (11) 再 运用 链 式 法 则 计算 
OJ dat dy; dnet,; 


Ow dy; ðnet; OW ji 


右边 的 第 一 项 包含 了 所 有 的 权 值 ww ;而 只 需 很 少 的 处 理 . 
oF ð Ly _ ,2 
ay; 一 ay; 5) 一- (ty Zk) | 

C OZ 
=-YVa-w 
2, k 一 &k ay; 


= OZ, Onety 
一 一 》 (fx — zk) 
全; Onet, dy; 











(18) 








二 一 Yih — zk) f (net, ) We; (19) 


k=] 


上 面 的 第 二 步 里 必须 再 次 用 到 链 式 法 则 。 式 (19) 里 输出 单元 的 最 终 总 和 可 以 表示 隐 单 元 怎样 


291 





238 wm #6 


影响 每 个 输出 单元 的 误差 。 仿 照 式 (15) ,我 们 可 以 用 式 (19) 来 定义 隐 单 元 的 敏感 度 
Ôj = f'(net;) 》 wrjôr (20) 
k=l 


式 (20) 是 解决 信用 分 配 问题 的 核心 :一 个 隐 单 元 的 敏感 度 是 各 输出 单元 敏感 度 的 加 权 和 ,权重 为 
隐 含 层 到 输出 层 权 值 w ,然后 与 f (net ) 相 乘 。 因 此 输入 层 到 隐 含 层 的 权 值 的 学 习 规 则 就 是 : 


i (21) 


Aw ji = xd; =n È z f (netj) xi 
ô j 
式 (17) 和 式 (21) ,以 及 下 面 所 述 的 学 习 协 议 ,共同 给 出 了 反 回 传播 算法 ,或 更 确切 的 说 “误差 反 
向 传播 ?算法 。 之 所 以 如 此 命名 ,是 因为 在 训练 过 程 中 一 个 “误差 ”( 其 实 是 敏感 度 2 ) 必 须 从 输 
出 层 传播 回 隐 含 层 , 以 实现 式 (21) 中 输入 层 到 隐 含 层 的 权 值 学 习 ( 图 6-5)。 而 本 质 上 , 反 疝 传 
播 只 是 “分 层 模 型 >(layered model) 里 的 梯度 下 降 法 。 在 分 层 模 型 里 对 连续 函数 执行 链 式 法 则 
可 以 计算 准则 函数 对 所 有 模型 权 值 的 导数 。 

就 像 所 有 梯度 下 降 算 法 一 样 , 反 向 传播 算法 的 行为 取决 于 初 值 。 尽 管 从 将 权 值 开始 设置 
成 0 显得 比较 自然 ,但 式 (21) 表 明 这 将 导致 很 不 理想 的 结果 。 如 果 输 出 层 的 权 值 wj 曾经 全 部 
为 0, 反 向 传播 误差 也 将 为 0, 输入 层 到 输出 层 的 权 值 将 不 会 改变 。 这 就 是 我 们 从 权 值 的 随机 
初始 值 开始 处 理 的 原因 ,这 将 在 6. 8. 8 节 中 继续 讨论 。 

上 述 学 习 规 则 从 直观 上 看 也 比较 有 道理 。 考 虑 输出 单元 权 值 学 习 的 第 一 个 规则 ( 式 
(17))。 单 元 k 上 的 权 值 更 新 的 确 与 (4 一 z) 成 正比 ;如 果 我 们 得 到 理想 的 输出 (z= 二 1) ,那么 
就 没有 权 值 变化 了 。 对 于 最 常用 的 典型 sigmoid 型 函数 fC). f (net, MEERA. KH. UR 
yi 和 (zt 一 zi) 都 是 正 的 ,那么 实际 输出 会 太 小 ,因此 权 值 必须 增 大 。 实 际 上 ,学 习 规 则 给 出 了 
合适 的 符号 。 最 后 , 权 值 更 新 应 该 与 输入 值 成 正比 。 如 果 y; 二 0, 那 么 隐 单 元 7 对 输出 没有 影 
响 , 也 就 对 误差 没有 影响 ,于 是 改变 ww; 将 不 会 改变 所 提供 的 模式 误差 。 对 式 (21) 进 行 类 似 分 
析 可 以 得 到 输入 层 到 隐 含 层 权 值 问 题 的 绪论 (习题 5) 。 

图 6-5 隐 单 元 的 敏感 度 与 输出 单 
元 的 敏感 度 的 加 权 和 成 正比 : =| 


8 = f (net;) È Wad, ,这 样 输出 单元 
的 敏感 度 就 反 向 传播 “ 回 ” 隐 单元 了 maz 


w OOO 


尽管 我 们 对 特别 简单 的 三 层 网 络 这 种 特殊 情况 做 了 分 析 , 但 它 可 以 很 容易 地 推广 到 更 一 
般 的 网 络 。 如 果 在 标记 和 符号 上 再 下 些 工 夫 ( 见 习题 7 和 11) ,那么 反 回 传播 学 习 算 法 可 以 直 
接 推 广 到 如 下 的 前 馈 网 络 : 

* 输入 单元 包含 偏 置 单元 

。 允许 输入 单元 直接 与 输出 单元 和 隐 单 元 相连 

。 网 络 多 于 三 压 

。 不 同 层 有 不 同 的 非 线 性 函数 

。 ETETA EA B IERTE RA 
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© 每 个 单元 的 学 习 率 可 以 不 同 
出 于 稳定 性 的 考虑 ,如 果 网 络 具 有 同 层 内 部 互 连 , 或 高 层 到 低层 存在 反馈 连接 ,那么 此 时 的 学 
习 算 法 将 比较 困难 和 和 微妙。 我 们 将 在 6. 10. 5 节 中 考虑 这 种 递归 网 络 (recurrent network), 
但 是 首先 集中 考虑 简单 情况 下 的 反 向 传播 算法 的 收敛 问题 。 
6.3.2 训练 协议 

广义 地 说 ,有 监督 的 训练 就 是 给 出 一 个 类 别 标记 已 知 的 模式 一 一 训练 集 一 一 找到 网 络 的 
mi ,并 调整 权 值 以 使 实际 输出 更 加 接近 于 期 望 的 目标 值 。 三 种 最 有 用 的 “训练 协议 ”或 "学 
习 协 议 ”) 是 :“ 随 机 训练 "(stochastic),“ 成 批 训 练 ”(batch) 和 “在 线 训练 ”(on-line)。 在 随机 训 
练 中 ,模式 是 随机 地 从 训练 集中 取出 的 ,网 络 权 值 也 根据 不 同 的 模式 进行 更 新 。 这 种 方法 被 称 
为 随机 是 因为 训练 数据 可 认为 是 一 个 随机 变量 。 在 成 批 训练 中 ,所 有 的 模式 已 在 训练 之 前 全 
部 送 往 网 络 中 。 实 际 上 每 种 情形 我 们 都 必须 通过 好 几 次 训练 数据 。 在 “在 线 训练 ”中 ,每 种 模 
式 只 提供 一 次 ,不 需要 存储 器 来 保存 模式 。 

我 们 用 回合 (epoch) 来 描述 模式 提供 的 总 数 , 其 中 一 个 回合 对 应 于 训练 集 的 所 有 模式 都 提 
供 ( 输 入 层 ) 一 次 。 回 合 的 次 数 表示 训练 的 相对 总 量 ?3。 反 向 传播 的 随机 协议 和 成 批 协 议 在 下 
面 的 步骤 中 显示 。 


算法 1 (随机 反 向 传播 ) 


1 begin initialize ny, w, M] 20,7 ,mm<0 





2 do m<-m+ 1 

3 x”<- 随 机 选择 模式 

4 Wi Wi FÒ; Li Wi Wy OYy; 
5 until || Y J Cw) | <0 

6 return w 

7 end 


在 “在线 训练 "中 ,算法 1 里 的 第 3 行 替换 为 训练 模式 的 顺序 选择 (sequential selection) 
(习题 9) 。 第 5 行使 算法 在 准则 函数 jw)? 变 化 量 小 于 某 预 设 值 2 时 结束 。 这 可 能 是 最 简单 有 
效 的 停止 准则 ,其 他 准则 通常 会 得 出 更 好 的 执行 效果 ,这 将 在 6. 8. 14 节 中 讨论 。 

在 “成 批 训练 "中 ,所 有 的 训练 模式 都 先 提供 一 次 ,然后 它们 所 对 应 的 权 值 更 新 相 加 ;只 有 
这 时 网 络 里 的 实际 权 值 才 开始 更 新 。 这 个 过 程 将 一 直 迭 代 直 到 某 停止 准则 满足 。 

到 目前 为 止 ,我 们 只 是 考虑 训练 集中 单个 模式 的 误差 ,但 实际 上 我 们 要 考虑 一 个 定义 在 训 
练 集 里 所 有 模式 的 误差 。 尽 管 必须 注意 避免 标记 上 的 歧义 ,我 们 可 以 把 这 个 总 训练 误差 写成 
是 对 个 单独 模式 误差 的 总 和 : 


J=3 (22) 
p= 


在 “随机 训练 "中 ,一 个 权 值 更 新 有 可 能 减少 某 个 单个 模式 的 误差 ,然而 却 增 加 了 训练 全 集 上 的 
误差 。 不 过 ,给 出 大 量 的 这 种 单 次 更 新 , 却 可 以 降低 式 (22) 中 所 给 出 的 总 误差 。 


O 在 第 9 章 中 我 们 将 讨论 第 四 种 协议 ,查询 训练 ,其 中 网 络 的 输出 被 用 于 选择 新 的 训练 模式 。 
“回合 "的 提 法 不 用 于 在 线 训练 ,在 那里 ,模式 提供 的 总 量 采 用 另外 的 更 加 合适 的 度量。 


294 


240 = 第 6 章 


算法 2 (成 批 反 向 传播 ) 
1 begin initialize nn ,w EM], 0,0, r0 
2 do rrt GHENA) 


mE A mwm AOA Wi 





do m<m-+ 1 
x” <— ERRA 
A Wy A wit OE A WA wi tne, Y 
until m=n 
Wi wi A Wi i Wy Wy +O uy; 
until || Y J (w) || <8 
10 return w 
11 end 


O oo nN DD Sn FE W 


在 “成 批 反 回 传播 "中 ,既然 权 值 只 有 在 所 有 模式 出 现 一 次 后 才 更 新 ,我 们 就 不 必 随 机 选择 
模式 。 我 们 将 在 6. 8 节 中 考虑 不 同 协议 的 优 和 缺点 。 
6.3.3 学 习 曲 线 

在 训练 开始 之 前 ,训练 集 上 的 误差 通常 很 高 ; 随 着 学 习 的 进展 ,误差 会 变 得 越 来 越 小 ,由 此 可 
显示 成 一 条 学 习 曲 线 ( 图 6-6). (每 个 模式 的 ) 训 练 误 差 最 终 达 到 一 个 渐 近 值 , 这 个 值 由 贝 叶 斯 误 
2 .训练 数据 的 数量 .以 及 网 络 的 表达 能 力 ( 比 如 权 值 的 个 数 ) 共 同 决定 。 贝 叶 斯 误差 越 大 或 者 权 
的 个 数 越 少 , 该 渐 近 误差 值 就 可 能 越 大 。 由 于 成 批 反 向 传播 对 准则 孔 数 运用 了 梯度 下 降 法 ,训练 
误 郑 会 单调 减 小 。 在 独立 的 测试 集 上 的 平均 误差 实际 上 总 是 比 训练 全 集 上 的 误差 要 大 。 误 差 大 
体 是 下 降 的 ,在 它 保持 下 降 的 趋势 的 同时 ,局 部 偶尔 也 可 能 增加 或 发 生 波动 。 

除了 作为 训练 样本 集 以 外 ,对 独立 选取 的 其 他 样本 集 , 这 里 还 有 两 种 概念 上 不 同 的 用 法 。 
一 种 是 为 了 测试 所 用 网 络 的 现场 运行 性 能 ,为 此 我 们 需要 测试 集 (test set)。 男 一 种 是 决定 什 
么 时 候 应 该 停止 训练 ;为 此 我 们 使 用 验证 集 (validation set)。 关 于 这 点 ,我 们 将 在 6. 8. 14 节 
中 讨论 ,在 验证 集 上 的 误差 取得 极 小 值 时 就 可 以 停止 训练 。 

图 6-6 也 显示 了 一 个 验证 集 上 的 平均 误差 ,验证 集 是 指 没有 直接 用 来 做 梯度 下 降 训 练 的 
模式 .从 而 作为 仍 需要 进行 分 类 测试 的 新 模式 的 间接 的 代表 。 验 证 集 也 可 用 作成 批 协 议和 随 
机 协议 里 的 停止 准则 ;训练 集 上 的 梯度 下 降 训练 在 一 个 验证 误差 达到 极 小 值 的 时 候 停止 (比如 
图 中 徘 近 回合 5 的 地 方 )。 参 阅 第 9 章 深 入 理解 为 什么 验证 技术 ,或 者 更 一 般 的 交叉 验证 技术 
(cross validation) ,通常 可 以 改进 网 络 的 识别 率 。 

Al 5-6 学 习 曲 线 显示 的 是 误差 准则 函数 作为 In 
训练 总 量 的 一 个 函数 。 训 练 总 量 一 般 用 回合 

数 表 示 ( 或 者 全 部 训练 集 提 供 的 次 数 )。 画 出 

单个 模式 的 平均 误差 图 ,也 就 是 1/2 5-1 J,. 

每 个 模式 的 “验证 误差 ”和 “测试 误差 "(或 广义 

误差 ) 实 际 上 总 是 比 * 训 练 误差 大。 在 有 些 协 

议 中 ,训练 在 验证 集 误差 最 小 的 时 候 停止 > 
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6.4 误差 曲面 


既然 反 向 传播 基于 准则 函数 的 梯度 下 降 法 ,我 们 可 以 通过 研究 误差 曲面 , 即 函 数 Cw) ,来 
认识 和 理解 这 个 算法 。 当 然 ,这 个 误差 曲面 取决 于 训练 和 分 类 任务 ;然而 也 存在 一 条 适用 于 各 
种 实际 模式 识别 问题 的 误差 曲面 的 通用 特性 。 一 个 我 们 关心 的 问题 就 是 局 部 极 小 值 ;如 果 有 
六 多 的 局 部 极 小 值 充 斥 在 误差 表面 上 ,网 络 就 不 大 可 能 找到 全 局 最 小 值 。 下 面 我 们 将 要 看 看 
这 是 否 一 定 会 导致 很 差 的 执行 性 能 。 平坦 区 域 的 存在 也 是 一 个 问题 ,这 些 区 域 的 误差 几乎 不 
随 权 值 的 变化 而 变化 。 如 果 这 些 平坦 区 域 非常 多 ,根据 算法 1 和 2 我 们 可 想 而 知 训练 必定 非 
弟 慢 。 由 于 训练 一 般 由 小 的 权 值 开始 ,w0 邻 域 的 误差 曲面 就 可 以 决定 下 降 的 大 体 方 向 。 这 
个 区 域 的 误差 有 什么 特点 呢 ?” 绝 大 多 数 被 关注 的 实际 问题 都 是 高 维 的。 高 维 误差 函数 有 什么 
$ ed AY RE AG 2 

我 们 现在 就 直观 考察 一 些 网 络 系统 ,来 探索 上 面 的 问题 ， 

6.4.1 一 些小 型 网 络 

考虑 最 简单 的 三 层 非 线性 网 络 ,该 网 络 在 这 里 解决 的 是 一 维 的 2- 类 分 类 问题 。 图 6-7 中 
显示 的 就 是 1-1-1S 型 网 络 ( 含 偏 置 ) 。 图 中 所 示 的 数据 是 线性 可 分 的 ,最 佳 判决 边界 (也 就 是 
Zi 一 0 附近 的 某 点 ) 将 这 两 个 类 别 分 开 。 在 学 习 过 程 中 ,当权 值 降 到 全 局 极 小 值 , 问 题 就 解决 
7. 

图 6-7 8 个 一 维 模 式 

(每 类 各 4 个 ) 用 一 个 具 

有 较 耳 的 S$ 型 隐 含 和 

输出 单元 ( 含 偏 置 ) 的 

1-1-1 型 网 络 来 学 习 。 

作为 ee 和 mm 的 函数 的 

误差 曲面 也 显示 在 图 

上 ,其 中 偏 置 已 被 赋 为 

最 终 值 。 网 络 初始 权 

值 是 随机 的 ,通过 随机 

训练 ,误差 降 到 全 局 极 

小 值 , 如 图 轨迹 所 示 。 

注意 这 里 存在 一 个 低 

误差 的 解 , 它 对 应 的 判 

决 边界 确实 把 训练 点 

正确 地 分 成 两 类 





这 里 误差 曲面 有 一 个 单一 《全 局 ) 极 小 值 , 这 个 极 小 值 使 得 判决 点 把 模式 分 为 两 个 类 别 。 
次 考 曲 面 上 不 同 的 平坦 区 域 粗 略 地 对 应 不 同 数量 的 恰当 分 类 的 模式 ;这 个 例子 中 错误 分 类 的 
模式 的 数目 最 大 是 4。 那 些 平坦 区 域 ,也 就 是 权 值 变化 不 引起 误差 变化 的 区 域 ,在 这 里 对 应 于 
其 有 大 致 相同 判决 的 权 值 集 。 当 w HIB ws 变 成 更 小 的 负数 时 ,误差 曲面 表明 误差 值 没 有 
变 , 这 个 结果 可 以 通过 观察 网 络 自身 来 进行 非 正 式 的 验证 。 

现在 考虑 将 同样 的 网 络 应 用 到 另 一 个 更 难 的 一 维 问题 , 即 一 个 一 维 线性 不 可 分 问题 
(图 6-8)。 前 先 , 可 以 发 现 总 的 误差 曲面 应 该 比 图 6-7 中 的 稍微 高 一 些 , 因 为 即使 最 好 的 可 达 
方法 也 会 导致 一 个 模式 被 错误 分 类 。 跟 前 面 的 一 样 ,误差 曲面 上 的 不 同 的 平坦 区 对 应 于 不 同 
数目 的 已 经 学 习 了 的 模式 。 然 而 ,不 应 该 把 误差 平方 跟 分 类 误差 相 混淆 。 比 如 ,这 里 有 两 种 一 
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般 的 错 分 方式 ,但 有 着 不 同 的 误差 。 恰 好 一 个 1-3-1 网 络 ( 不 是 1-2-1 网 络 ) 可 以 解决 这 个 问 
题 ( 上 机 练习 3) 。 

这 些 简单 的 例子 能 清楚 地 显示 出 权 值 .判决 边界 以 及 误差 之 间 对 应 关系 。 从 中 ,我 们 可 以 
看 到 解决 问题 的 过 程 对 应 怎样 的 误差 值 降 低 过 程 ,并 且 还 可 以 发 现 当 存在 一 组 权 对 应 几乎 相 
同 的 判决 边界 时 就 会 出 现 平 坦 区 。 而 且 , 靠 近 ws0 的 区 域 (传统 的 学 习 起 始 区 ) 的 误差 比较 
大 ,而 恰好 在 该 区 域 附近 有 很 大 的 坡度 。 如 果 起 始点 有 所 不 同 ,网 络 还 是 会 下 降 到 相同 的 最 终 
权 值 。 


6-8 和 图 6-7 
相似 ,只 是 这 里 
的 模式 是 线性 
不 可 分 ,误差 曲 
面 比 图 6-7 里 
的 也 要 稍微 高 
一 些 。 同 时 注 
Bik = th wb 
有 两 种 形式 的 
极 小 误差 解 ; 它 
们 对 应 一 2 二 
x” <-— 1 和 f 
1<zx <2, H P wo i. 大 和 


有 一 个 模式 被 IO ~ 
误 分 +—_@_@ © o oeo oo, 
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6.4.2 Æ% (XOR) WB 
有 一 个 我 们 曾经 看 过 的 更 复杂 一 些 的 问题 , 即 XOR 问题 。 图 6-9 显示 的 是 一 个 带 偏 置 的 
2-2-1S 型 网 络 的 九 维 权 值 空间 的 几 种 二 维 片段 。 这 些 片 段 包含 误差 的 一 个 全 局 最 小 。 





图 6-9 一 个 解决 XOR 问题 的 2-2-1 网 络 在 充分 训练 后 的 九 维 误差 曲面 里 的 二 维 层面 


首先 应 该 注意 到 ,这 里 误差 作为 一 个 单个 权 值 的 薄 数 的 变化 比 图 6-7、6-8 的 问题 中 误差 
的 变化 要 来 得 平稳 。 这 是 因为 在 大 网 络 中 单个 权 值 对 输出 的 平均 贡献 相对 要 小 一 些 。 消 、 谷 
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以 及 其 他 各 种 形状 都 可 以 在 这 个 误差 曲面 上 找到 。 这 些 极 小 值 对 应 于 3 种 (而 不 是 4 种 ) 模 式 
分 类 的 解 。 虽 然 我 们 很 难 用 图 形 来 说 明 , 但 是 误差 曲面 对 于 某 种 离散 置换 (permutation) 是 不 
变 的 ,举例 说 明 ,如 果 两 个 隐 单 元 的 标识 对 换 , 且 权 值 也 适当 改变 ,误差 曲面 的 形状 是 不 会 受 影 
响 的 (习题 13) 。 
6.4.3 较 大 型 的 网 络 

可 惜 的 是 ,我 们 从 考虑 小 网 络 的 误差 曲面 所 得 到 的 知识 ,仅仅 是 给 出 了 大 网 络 怎样 运行 的 
一 些 启示 而 已 ,而且 有 时 还 很 容易 引起 误导 。 对 于 一 个 具有 很 多 权 值 .解决 较 复杂 的 高 维 分 类 
问题 的 网 络 , 随 单个 权 值 的 改变 ,误差 变化 将 十 分 缓慢 。 并 且 , 误 差 曲 面 还 可 能 具有 低 槽 、 山 
谷 .峡谷 及 其 他 大 量 的 形状 。 

尽管 低 维 空间 里 局 部 极 小 值 非常 多 ,高 维 空间 里 局 部 极 小 值 问题 却 有 所 不 同 : 在 学 习 过 程 
中 ,高 维 空间 可 以 给 系统 提供 更 多 的 方式 ( 维 数 , 或 自由 度 ) 以 “ 避 开 ”障碍 或 局 部 极 大 值 。 权 值 
个 数 越过 剩 ,网 络 越 不 可 能 陷 人 局 部 极 小 值 。 然 而 ,由 于 存在 “过 拟 合 ”的 危险 ,网 络 的 权 值 过 
分 多 也 是 不 合 要 求 的 ,这 点 将 在 6. 11 节 中 讲 到 。 
6.4.4 关于 多 重 极 小 

多 重 局 部 极 小 出 现 的 可 能 性 正 是 我 们 运用 迭代 梯度 下 降 法 的 原因 之 一 。 解 析 法 找到 一 个 单 
一 全 局 极 小 值 的 可 能 性 很 小 ,尤其 是 在 高 维权 值 空间 中 。 在 实际 计算 中 ,我 们 不 希望 网 络 陷 人 具 
有 高 的 训练 误差 的 局 部 极 小 值 ,因为 这 通常 表明 问题 的 主要 特征 没有 被 网 络 所 学 会 。 在 这 种 情 
况 下 ,常规 作法 是 重新 初始 化 权 值 再 训练 一 遍 , 有 可 能 还 要 改变 网 络 中 其 他 参数 (6. 8 节 )。 

在 很 多 问题 中 ,如 果 误 差 已 经 相当 低 , 那 么 收敛 到 一 个 非 全 局 极 小 值 也 是 可 以 接受 的 。 而 
且 , 由 于 一 般 还 有 停止 准则 的 作用 ,训练 甚至 在 到 达 极 小 值 之 前 就 终止 ,所 以 网 络 一 定 朝 着 一 个 
全 局 极 小 值 收敛 以 达到 可 接受 的 性 能 并 不 是 一 件 很 重要 的 事 了 。 总 之 ,多 重 极 小 值 的 存在 在 网 
络 训练 中 并 没有 显 出 多 大 的 困难 ,一 些 简单 的 启发 信息 通常 可 以 部 服 这 些 问 题 (6. 8 节 )。 


6.5 反 向 传播 作为 特征 映射 


既然 隐 含 层 到 输出 层 是 一 个 线性 判别 冰 数 ,多 层 神经 网 络 所 提供 的 新 的 计算 能 力 可 以 归 
因 于 输入 层 到 隐 含 层 单元 上 的 表示 的 非 线 性 弯曲 (warping) 能 力 。 我 们 再 次 借助 于 XOR fa 
题 来 考察 这 个 变换 。 

图 6-10 是 一 个 针对 XOR 问题 的 三 层 网 络 。 对 于 zizxs 空间 的 任何 输入 模式 ,我 们 都 可 在 
yy: 空间 显示 两 个 隐 单 元 对 应 的 输出 。 在 初始 权 值 很 小 的 情 次 下 ,每 个 隐 单 元 的 净 激 活 是 很 
小 的 ,因此 它们 的 转换 函数 的 线性 部 分 就 用 上 了 。 这 个 从 x 到 y 的 线性 转换 使 模式 线性 不 可 
分 (习题 1) 。 然 而 , 随 着 学 习 的 进行 ,输入 层 到 隐 含 层 的 权 值 在 数 但 上 增加 , 隐 含 层 单 元 的 非 
线性 弯曲 并 扭曲 了 从 输入 层 到 隐 含 层 单元 空间 的 映射 。 在 学 习 过 程 的 末尾 ,由 隐 含 层 到 输出 
层 的 权 值得 出 的 线性 判决 边界 是 用 虚线 表示 的 。 输 入 层 的 非 线 性 可 分 问题 也 就 转化 成 了 隐 含 
层 单元 的 线性 可 分 问题 。 

我 们 可 以 用 3 位 奇偶 校 验 问题 来 描述 这 个 扭曲 问题 。 如 果 输 入 中 的 1 的 个 数 是 奇数 , 那 
么 输出 为 十 1, 否 则 为 一 1, 也 就 是 XOR 或 2 位 奇偶 校 验 问题 的 一 般 化 (图 6-11)。 和 前 面 一 
样 , 在 学 习 的 早期 , 隐 含 层 单元 在 它们 的 线性 范围 内 进行 操作 ,从 而 其 变换 后 的 数据 仍然 线性 
不 有 可 分 一 一 来 自 两 个 类 别 的 模式 位 于 一 个 立方 体 的 可 能 顶点 (alternating vertex) 上 。 如 图 所 
示 , 经 学 习 后 , 权 值 变 大 , 隐 单 元 的 非 线 性 表现 出 来 ,模式 也 被 移动 而 变 得 线性 可 分 了 ，。 
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图 6-10 ”图 中 所 示 为 一 个 2-2-1 反 向 传播 网 络 
( 含 偏 置 ) 以 及 四 模式 XOR 问题 。 中 间 那 幅 图 
显示 4 种 模式 所 对 应 的 隐 单 元 的 4 种 输出 。 在 i 
整个 网 络 的 学 习 过 程 中 ,这 些 输 出 穿 过 了 va 
空间 。 在 这 个 空间 ,在 训练 的 早期 (epoch 1) 时 述 
这 两 个 类 别 并 不 是 线性 可 分 的 。 随 着 输入 层 到 
隐 含 层 权 值 的 学 习 , 类 别 变 成 了 线性 可 分 。 虚 
线 是 学 习 的 后 期 时 由 隐 含 层 到 输出 层 权 值 所 决 
定 的 线性 判决 边界 ;两 类 模式 的 确 是 被 这 个 边 
春分 开 的 。 最 底 端 的 图 显示 的 是 学 习 曲 线 一 一 
定义 在 各 个 模式 上 的 误差 以 及 总 误差 作为 回合 
的 削 数 。 注 意 经 常 出 现 的 现象 是 ,尽管 单个 模 
式 上 的 误差 不 是 单调 减 小 ,总 的 训练 误差 却 是 
单调 减 小 的 -0.5 
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图 6-11 一 个 3-3-1 反 向 传播 

网 络 ( 含 偏 置 7 的确 可 以 解决 3 

位 奇偶 校 验 阿 题 。 系 统 学 习 J 

时 ,8 个 模式 在 隐 单 元 (yi yya 4 a 

空间 ) 的 表示 以 及 平面 判决 边 
界 都 是 在 学 习 末 期 由 隐 含 层 到 \ 
输出 层 权 值 给 出 。 两 类 模式 确 \ 
实 被 这 个 平面 分 开 。 学 习 曲 线 \ 
显示 了 单个 模式 的 误差 以 及 作 


\ 
为 回合 的 函数 的 总 误 关 J 上 SN 


图 6-12 所 示 为 一 个 二 维 的 两 类 问题 以 及 具有 S 型 隐 单 元 的 2-2-1 和 2-3-1 网 络 的 模式 表 
示 。 注 意 ,在 只 有 两 个 隐 单 元 的 网 络 中 ,类 别 已 经 分 开 , 不 过 还 不 足以 达到 无 误差 分 类 。 网 络 
的 表达 能 力 还 不 够 高 。 与 之 相 比 ,三 隐 单 元 的 网 络 却 可 以 分 开 这 些 模 式 。 一 般 而 言 ,在 sig 
moid 型 网 络 中 只 要 给 出 足够 多 的 隐 单 元 ,任何 不 同 模式 集 都 可 以 用 这 种 方法 学 习 ， 
6.5.1 隐 含 层 的 内 部 表示 一 一 权 值 

除了 关注 网 络 对 模式 的 变换 过 程 的 可 视 化 表示 ,我 们 也 可 以 考虑 学 习 过 的 权 值 的 表示 。 
既然 隐 含 层 到 输出 层 的 权 值 只 导出 一 个 线性 判别 式 , 所 以 输入 层 到 隐 含 层 的 权 值 才 更 有 意义 。 
特别 地 ,单个 隐 单 元 的 权 值 描述 了 导致 隐 单 元 最 大 激活 的 输入 模式 ,类似 于 一 个 “匹配 滤波 器 ” 
(6. 10.3 市 )。 由 于 隐 单 元 的 激活 函数 是 非 线 性 的 ,因而 它 与 经 上 典 方法 如 匹配 滤波 器 的 对 应 美 
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系 是 不 精确 的 。 然 而 有 时 ,把 隐 单 元 处 理 过 程 看 成 寻找 "特征 组 合 " (feature grouping) Hw fe 
却 是 很 方便 的 ,该 特征 组 合 过 程 对 由 隐 含 层 到 输出 层 权 值 实现 线性 分 类 是 十 分 有 用 的 。 
图 6-12 底部 图 为 一 个 二 维 两 类 不 可 分 模式 可 分 横 式 
非 线 性 可 分 分 类 问题 的 7 种 模式 。 2 
左上 图 为 一 个 已 经 把 误差 完全 训 
练 到 全 局 极 小 值 的 2-2-1 S 型 网 络 
( 含 偏 置 ) 的 隐 单 元 表示 。 用 隐 含 
层 到 输出 层 的 权 值 来 执行 的 线性 
边界 用 灰色 虚线 显示 。 注 意 ,类 别 
几乎 在 wy 空间 线性 可 分 ,只 有 一 
个 训练 点 被 误 分 了 。 右 上 图 是 模 
拟 一 个 完全 训练 的 2-3-1 网络 ( 含 











偏 置 ) 的 隐 单 元 表示 。 由 于 隐 含 层 st 
的 高 维 表示 能 力 , 现 在 类 别 变 得 线 4 
性 可 分 ;学 习 过 的 隐 含 层 到 输出 层 3! 
的 权 值 确实 得 出 了 一 个 将 类 别 分 2 . + 
开 的 平面 l & 
-=r i 


图 6-13 所 示 为 输入 层 到 隐 含 层 的 权 值 ,显示 为 图 像 , 用 来 完成 简单 的 字符 识别 。 注 意 其 
中 一 个 隐 单 元 似乎 “调谐 "到 或 “匹配 ”到 一 对 水 平 条 ,而 为 一 个 调谐 到 一 个 较 低 的 水 平 条 。 这 
些 特 征 组 合 都 用 于 构造 所 呈现 模式 的 各 部 分 。 但 是 ,在 较 复 水 的 高 维 问 题 中 ,学 习 后 的 权 值 的 
模式 不 可 能 只 与 我 们 主观 认为 的 对 任务 比较 适合 的 特征 简单 地 相关 。 这 可 能 是 因为 我 们 会 误 
会 什么 是 真正 的 ,相关 的 特征 组 合 ;特征 间 的 非 线性 交互 作用 可 能 在 茶 个 问题 中 比较 有 意义 ， 
而 且 该 交互 作用 并 不 会 在 单个 隐 单 元 上 的 权 值 的 模式 中 显现 ;或 者 网 络 可 能 具有 太 多 权 值 ,从 
而 对 个 别 特征 的 选择 率 较 低 。 因 此 ,尽管 对 学 习 后 的 权 值 的 分 析 是 有 局 发 意义 的 ,但 整个 过 程 
必须 慎重 对 竺 。 










图 6-13 “上 部 的 图 形 表示 的 是 从 用 来 训练 对 3 个 ”训练 模式 样本 
字符 进行 分 类 的 64-2-3 S 型 网 络 的 训练 集中 选 出 OR 寺 +H H H 3 

的 一 些 模 式 。 下 部 的 图 形 显示 的 是 训练 后 两 个 隐 -于 ego Be H oe 

单元 的 输入 层 到 隐 含 层 的 权 值 ( 用 模式 表示 )。 注 AE SETS RHE Se 


意 这 些 学 习 后 的 权 值 的 确 描述 了 用 来 分 类 的 特征 
分 组 形式 。 但 在 大 型 网 络 中 ,这 些 学 习 后 的 权 值 的 
模式 却 很 难 用 上 述 方式 解释 














学 习 的 输入 层 到 隐 售 层 的 权 
一 般 很 难 用 输入 特征 来 描述 隐 含 层 到 输出 层 的 权 值 。 不 仅 隐 含 层 单元 自己 已 经 编码 了 某 
种 抽象 模式 ,而 且 隐 含 层 单元 没有 类 似 于 输入 单元 的 自然 排序 或 组 织 ( 图 6 13). EI EY% 
元 的 输出 与 输入 非 线 性 相关 ,这 些 使 得 隐 含 层 到 输出 层 的 权 值 的 分 析 比 较 困 难 。 我 们 可 以 做 
的 是 . 绘 出 隐 单 元 的 与 所 关心 的 输出 发 生 强 烈 联 系 的 输入 权 值 的 模式 (上 机 练习 9)。 
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6.6 反问 传播 \ 贝 叶 斯 理论 及 概率 


尽管 多 层 神 经 网 络 显 得 有 些 专门 化 (ad hoc) ,我 们 现在 可 以 证 明 , 当 采用 均 方差 准则 进行 
反问 传播 训练 时 ,多 层 神 经 网 可 产生 一 个 相应 于 贝 叶 斯 判别 函数 的 最 小 二 乘 判别 。 
6.6.1 贝 叶 斯 判别 与 神经 网 络 

正如 第 5 章 中 所 看 到 ,LMS 算法 计算 了 两 层 网 络 的 贝 叶 斯 判别 函数 的 逼近 。 我 们 现在 用 
两 种 方法 推广 这 个 结论 :推广 到 多 类 别 和 推广 到 用 三 层 神经 网 络 执行 的 非 线性 函数 。 我 们 用 
图 6-4 的 网 络 ,g (x;w) 是 第 x 个 输出 单元 的 输出 一 一 判别 函数 对 应 类 别 内 。 首 先 回忆 贝 叶 斯 
公式 

PXIOb P(o) PCX, œr) 


POO = Fe pao) po) PO (23) 


以 及 对 任意 模式 x 的 页 时 斯 判别 :选取 具有 最 大 判别 式 函 数 g, OO = Pw, 1x) 的 类 Wk o 
假设 我 们 根据 





] X E 
t(x) = | 0 其 他 
训练 一 个 有 c 个 输出 单元 及 一 个 目标 信号 的 网 络 。( 实 践 中 ,如 6.8 节 所 示 , 教 师 信 号 为 士 1 
比较 常用 。 为 了 简化 计算 我 们 在 这 个 推导 中 用 0-1 值 .) 对 有 限 个 训练 样本 x 的 给 予 单 个 输出 
单元 上 的 准则 函数 的 贡献 是 


(24) 





J(w) = $ (ex; w) tl? (25) 
= 》 [g(x; w) -— 1 Y [g(x; w) - OP 
KEW, XG wy 
an {mt w- 1p 42% I ; w) - OF 
=nf Lisa w) — IP Tam Doles w) oF | 


其 中 是 训练 模式 的 总 数量 ,w 中 有 4 个。 在 数据 取 极 限 情况 下 ,我 们 可 以 用 贝 叶 斯 公式 来 表 
述 式 (25) 如 下 (习题 17): 


lim Ljw) = J (w) 
n> n 
= P(w) J [gx(X; w) 一 1]? p(xlax)dx + P (wisk) J g? (x; W) P(x|@j; 44) dx 


= | sx: Wpodax -2 f see wrx odx + f pa on) ax 


= J [g (x; w) 一 P (comix)? p(x) dx + J P (wr |x) P (wisk |x) p(x)dx (26) 
独立 于 w 
反 向 传播 规则 改变 权 值 以 最 小 化 式 (26) 左 边 , 从 而 最 小 化 
J [ge(X; w) 一 P(œix)} p(x) dx (27) 


由 于 这 对 每 个 类 别 w.(k 二 1,2,…,c) 都 成 立 , 反 向 传播 训练 规则 使 得 它们 的 和 达到 最 小 (习题 
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22); 


D> | text: w) - Plexo? poo dx (28) 


k=l 
这 样 当 样本 数量 趋 于 无 穷 极限 时 ,已 训练 过 的 网 络 的 输出 将 可 以 近似 成 一 个 最 小 二 乘 (least- 
square) 意 义 上 的 后 验 概率 (posteriori probability) ,也 就 是 说 ,输出 单元 表示 一 个 后 验 概率 ， 
gX; w) 之 P(a,|x) (29) 


但 是 我 们 在 解释 这 些 结果 的 时 候 要 很 小 心 。 一 个 关键 假设 是 网 络 的 确 可 以 表示 函数 
Plow, |x) ;如 果 隐 含 层 单元 个 数 不 够 多 ,这 个 假设 是 不 成 立 的 。 然 而 ,以 上 结论 显示 ,神经 网 络 
具有 非常 理想 的 极限 特性 。 

6.6.2 作为 概率 的 输出 

在 前 面 的 小 节 里 ,我们 用 0-1 上 且 标 值 对 网 络 进行 训练 ,这 样 c 个 输出 单元 就 可 以 近似 表示 
概率 。 当 确实 能 给 出 无 限 个 训练 数据 时 ,输出 确实 代表 概率 。 但 是 如 果 这 个 条 件 不 成 立 
特别 是 我 们 只 有 有 限 个 训练 数据 一 一 输出 将 不 能 表示 概率 。 比 如 ,我 们 不 能 保证 它们 的 和 
为 1.0。 实 际 上 ,如果 网 络 输出 的 和 ,在 输入 空间 的 某 个 范围 内 , 跟 1.0 相差 太 远 ,那么 它 表 明 
网 络 没 有 精确 地 允 近 这 个 后 验 值 。 因 此 可 以 调节 网 络 拓 扑 、 隐 单元 数 , 或 网 络 的 其 他 环节 (6.8 
Ti). 

一 个 逼近 概率 的 方法 是 选择 指数 型 的 输出 单元 非 线性 图 数 , 而 不 是 sigmoid 型 一 一 
f (net, «ek 并 对 每 种 模式 将 输出 和 归 一 化 为 1. 0， 








pnetk 
Zk = 》 Enetm 
并 用 0-1 目标 信号 进行 训练 。 这 就 是 softmax WH, “EA SR” (winner-take-all) JF 2 tE K 
数 的 光滑 版 本 或 连续 版 本 。 胜 者 全 取 非 线性 中 的 最 大 输出 值 被 转换 成 1.0, 所 有 其 他 输出 都 
减 小 到 0.0。 对 每 个 类 别 w 隐 单元 的 表示 y 可 以 假定 来 目 一 个 指数 分 布 ( 习 题 20, 上 机 
题 10) ,对 此 ,softmax 可 以 给 出 理论 上 的 证 明 。 
这 样 ,一 个 用 这 种 方式 训练 的 神经 网 络 分 类 器 可 以 近似 后 验 概率 PC |x) ,并 且 它 依赖 于 
类 别 的 先 验 概率 。 如 果 将 一 个 已 训练 好 的 网 络 应 用 于 先 验 概率 发 生变 化 的 场合 ,那么 可 以 根 
据 这 些 先 验 值 的 比例 重新 调节 每 个 网 络 的 输出 ,g;(Cx) 王 PCw:|x) ,这 是 一 件 很 容易 的 事 。 当 网 
络 将 被 用 于 概率 估计 时 ,softmax 法 是 比较 合适 的 。 如 采 网 络 输 出 的 概率 确实 是 用 于 分 类 时 ， 
其 他 一 些 表 示 比如 ,在 输出 可 以 为 正 或 者 负 , 且 不 需要 和 为 1.0 的 地 方 一 一 也 是 可 取 的 。 
对 此 ,我 们 将 在 6.8.4 节 中 讨论 。 


"6.7 相关 的 统计 技术 


尽管 网 络 的 图 形 .拓扑 表示 非常 有 用 且 直 观 , 但 不 能 筷 了 实际 执行 的 前 馈 运 算 的 数学 运算 
由 (7) 式 表示 。 许 多 其 他 的 统计 技术 都 有 与 该 式 类 似 地 表示 。 比 如 ,投影 寻 踪 回归 (projection 
pursuit regression) ,或 简称 投影 寻 踪 ,执行 下 式 : 
Jmax 
z=) wifi(vix+ Vj0) + wo (31) 
j=l 


(30) 





这 里 ,每 一 对 w 和 vo 确定 输入 x 到 jw; 个 不 同 的 d 维 超 平 面 中 的 一 个 的 映射 关系 。 这 些 映射 
通过 非 线性 函数 f;(*) 来 变换 ,并 且 输 出 单元 是 许多 这 个 函数 的 值 的 线性 累加 。 一 般 可 以 采用 
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S 7 AE ea. ORRA“ H PRR” (ridge function), 这 是 因为 对 于 万) 的 尖峰 而 言 , 系 
统 的 输出 就 像 是 二 维 输入 空间 上 的 一 条 疹 线 (ridge line) 。 式 (31) 实 现 的 是 到 标量 函数 z 的 一 
个 映射 ;在 一 个 c 类 分 类 问题 中 将 有 c 个 这 样 的 输出 。 在 实际 计算 中 ,这 些 参 数 被 成 组 地 学 习 
以 最 小 化 一 个 LMS 误差 -例如 ,首先 是 vi 的 分 量 及 vio ,然后 是 v Re veo ,直到 Vj maz BL; mizo ’ 
再 是 W, Rowo ,重复 直到 收敛 。 

该 模型 与 我 们 所 看 到 的 三 层 神经 网 络 有 关 , 其 中 v; 和 vw 类 似 于 一 个 隐 单 元 上 的 输入 层 公 
隐 含 层 的 权 值 ,并 且 其 有 效 输 出 单元 是 线性 的 。 在 这 个 模型 的 隐 单 元 上 非 线 性 也 数 f;(*) 比 
sigmoid 更 一 般 ,其 自由 参数 也 比 sigmoid 函数 的 多 。 而 且 ,模型 的 输出 允许 比 1.0 更 大 ,这 可 
能 对 一 般 的 回归 任务 很 有 必要 。 而 对 我 们 所 考虑 的 分 类 任务 ,一 个 饱和 的 输出 (比如 一 个 sig- 
moid KOK E MAE. 

男 一 个 与 多 层 神 经 网 络 相 关 的 技术 是 广义 登 加 模型 (generalized additive model), 如 下 所 


— 


7N: 


d 
z= f (È fi(xi) +w) (32) 
i=l 

其 中 f OMKEER sigmoid, Kt 广 () 对 输入 特征 的 运算 是 非 线性 的 ,有 时 也 选 为 sig- 
moid。 通 过 迭代 调节 各 个 分 量 非 线性 f;(*) 的 参数 来 训练 该 模型 。 其 实 ,6.2 节 中 基本 的 三 层 
神经 网 络 实现 的 就 是 广义 个 加 模型 的 一 个 特例 (习题 24) ,尽管 来 用 的 训练 方式 不 一 样 。 

还 有 一 个 具有 很 多 可 调 参 数 的 极其 灵活 的 技术 是 多 元 自 适应 回归 样 条 Cmultivariate 
adaptive regression spline ，MARS)。 在 此 技术 中 ,局 部 样 条 函数 (具有 连续 可 导 性 质 的 多 项 
式 ) 在 初始 化 过 程 中 被 用 到 。 这 里 的 输出 是 M 个 样 条 的 乘积 的 加 权 和 : 


M rk 
z= > Wk I] Prr (Xgtk,r)) + Wo (33) 


: k=] r=] 
FP SB kT Se PSE x 个 一 维 样 条 函数 9, 的 乘积 , wo 是 一 个 标量 偏 移 。 样 条 取决 于 输入 值 
xs， 比如 一 个 输入 的 特征 分 量 , 此 索引 记 为 gq(k,r)。 显 然 ,在 一 个 c 类 问题 中 ,每 一 个 类 别 将 有 
这 样 的 一 个 输出 。 

总 的 来 看 ,MARS 的 训练 开始 于 依次 沿 每 一 个 特征 维 将 数据 拟 合成 样 条 函数 。 与 数据 在 
误差 平方 和 意义 上 拟 合 最 好 的 样 条 ,被 保留 下 来 。 这 就 是 式 (33) 中 r= 二 1 的 项 。 接 下 来 ,依次 
考虑 其 他 的 每 个 特征 维 。 对 这 样 的 每 一 维 而 言 , 候 选 样 条 的 选取 是 利用 该 样 条 与 先前 选取 的 
样 条 拟 合 的 乘积 进行 新 的 拟 合 ,从 而 给 出 r= 1-~2。 这 样 第 二 个 最 好 的 样 条 也 被 保留 下 来 ,从 
而 给 出 r= 2 项 。 依 此 类 推 , 样 条 个 数 将 不 断 地 增加 到 某 个 值 六 ,从 而 获得 期 望 的 拟 合 结果 。 
权 值 必 通 过 一 个 LMS 准则 的 梯度 下 降 法 进行 学 习 。 

出 于 多 种 原因 ,目前 实际 当中 ,应 用 于 模式 识别 研究 的 多 层 神 经 网 络 已 经 代替 了 所 有 的 投 
影 寻 踪 、MARS 及 早期 的 有 关 统 计 技 术 。 反 向 传播 算法 比 投影 寻 踪 和 MARS 中 的 学 习 要 简 
单 ,尤其 在 训练 模式 数 和 维 数 较 多 的 情况 下 ;局 发 式 信 息 可 以 更 简单 地 磐 人 到 神经 网 络 中 
(6.8.12 节 ); 网 络 允许 大 量 的 简化 和 规则 化 方法 (6. 11 节 ), 这 在 早期 方法 中 并 没有 直接 的 对 
应 部 分 。 并 且 ,利用 附加 的 训练 数据 来 改进 一 个 训练 好 的 神经 网 络 , 通 常 比 修改 基于 投影 寻 踪 
或 MARS A) or eh BE BH — | 


6.8 改进 反 向 传播 的 一 些 实用 技术 
到 目前 为 止 ,为 了 简化 起 见 ,我 们 已 经 忽略 了 许多 实际 因素 。 尽 管 以 上 的 分 析 是 正确 的 ， 
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但 是 ,对 算法 过 程 的 不 成 熟 的 实现 将 导致 较 惕 的 收敛 速度 、 较 差 的 执行 效果 或 者 其 他 一 些 不 理 
想 的 结果 。 因 而 现在 我 们 回 过 来 看 一 些 改进 反 向 传播 训练 的 实用 建议 。 尽 管 很 难 给 这 些 建议 
以 严格 的 数学 证 明 ,但 它们 是 基于 大 量 已 经 认可 的 局 发 式 经 验 , 并 且 在 许多 实际 应 用 中 被 证 明 
很 有 用 。 

6.8.1 激活 函数 

对 于 f《*) 我 们 总 期 望 它 具 有 很 多 优良 的 性 质 , 但 是 我 们 不 能 忘记 如 下 事实 , 即 只 要 几 条 
简单 性 质 ( 如 f(:) 的 连续 性 以 及 它 的 可 导 性 ) 能 够 得 到 满足 ,那么 反 向 传播 就 对 任何 激活 饥 数 
有 效 。 在 任 一 给 定 的 分 类 问题 中 ,我 们 有 理由 选择 某 个 特定 的 激活 水 数 。 比 如 ,如 果 我 们 具有 
这 样 的 先 验 信息 , 即 分 布 是 由 混合 高 斯 分 布 所 引起 的 ,那么 高 斯 形式 的 激活 也 数 将 是 一 个 恰当 
的 选择 。 

当 没 有 这 样 的 相关 先 验 信息 的 指导 时 ,我 们 将 如 何 要 求 1*) 的 一 般 性 质 呢 ?当然 ,首先 
要 求 f(*) 必 须 存 在 非 线 性 否则 三 层 网 络 将 不 提供 高 于 两 层 网 络 之 上 的 任何 计算 能 力 ( 习 
题 1) 。 第 二 个 期 望 的 性 质 是 饱和 性 一 一 即 ,存在 最 大 输出 值 和 最 小 输出 值 ,这 可 以 限定 权 值 
和 激活 函数 的 上 下 边界 ,因而 使 得 训练 次 数 也 是 有 限 的 。 当 输出 代表 一 个 概率 时 ,饱和 性 尤为 
重要 。 它 在 生物 神经 网 络 模型 中 也 是 很 重要 的 ,其 中 输出 代表 神经 兴奋 率 。 在 用 于 回归 的 网 
络 中 它 就 不 那么 重要 了 ,因为 其 中 要 求 有 一 个 较 大 的 动态 范围 。 

第 三 个 性 质 是 连续 性 和 光滑 性 一 一 即 , f(*) 和 了 (*) 在 它们 的 整个 自 变 量 范围 内 都 有 定 
义 。 回 想 这 样 一 个 事实 ,f(*) 的 导 肾 数 的 存在 性 对 推导 反问 传播 学 习 规 则 中 是 至 关 重 要 的 。 
因此 ,该 规则 将 不 能 工作 在 阔 值 函数 和 符号 函数 上 。 反 向 传播 可 以 工作 在 分 段 线 性 函数 上 ,但 
这 样 会 增加 复杂 性 而 并 没有 带 来 多 大 的 效益 。 

单调 性 是 f(*) 的 另 一 个 方便 但 并 非 必 要 的 性 质 一 一 我 们 可 能 希望 它 的 性 函数 在 整个 自 
变量 范围 内 具有 相同 的 符号 ,比如 ,了 A(*) 宇 9。 如 果 f 不 单调 且 具 有 多 个 局 部 最 大 值 ,将 在 误 
差 曲 面 上 引入 附加 的 和 不 希望 出 现 的 极 值 。 如 果 采 取 适 当 的 措施 ,可 以 使 用 非 单调 激活 函数 
如 径 向 基 函 数 (radial basis function) (6. 10. 1 节 )。 另 一 个 期 望 的 性 质 是 当 net 值 较 小 时 具有 
线性 特性 ,这 使 得 系统 在 误差 较 低 时 ,能 够 实现 一 个 线性 模型 。 

有 一 类 函数 具有 以 上 期 望 的 所 有 性 质 , 即 S 型 函数 ,例如 双 曲 正切 函数 tanh). SA RK 
数 是 光滑 .可 微 . 非 线性 且 饱 和 的 。 如 果 网 络 权 重 较 小 , 它 也 能 实现 线性 模型 。 另 外 一 个 好 处 
是 导 函 数 广 (*) 容 易 用 /本 身 来 表达 (习题 10) 。 

在 多 项 式 分 类 器 中 提 到 使 用 zi ,zs，… La i zzZiz LLa 等 形式 的 激活 图 
数 。 训 练 也 是 采用 梯度 下 降 法 。 它 们 的 缺点 之 一 是 隐 单 元 的 输出 (CP 函数 ) 对 哪怕 实际 问题 来 
说 都 会 变 得 非常 大 (习题 29)。 通 过 引入 饱和 的 sigmoid 型 的 激活 图 数 , 神 经 网 络 可 以 避免 这 
个 问题 。 

aS EA sigmoid 单元 提供 了 输入 层 的 一 个 分 布 式 的 或 全 局 性 的 表示 。 也 就 是 说 ,任何 
特定 的 输入 工 可 能 通过 某 几 个 隐 单 元 产生 激发 信 叶 。 相 反 , 如 果 隐 单元 具有 仅 对 一 个 小 范围 
内 的 输入 产生 有 意义 响应 的 激活 函数 ,那么 一 个 输入 Xx 通 常会 导致 更 少 的 隐 单 元 被 激活 从 而 
得 到 一 个 局 部 表示 (当然 ,最 近邻 分 类 器 采用 的 也 是 局 部 表示 法 )。 实 践 中 经 常会 发 现 , 当 只 有 
少数 训练 点 时 ,分 布 式 的 表示 将 是 最 优 的 ,因为 有 更 多 的 数据 将 影响 给 定 输入 区 域内 的 后 验 概 

由 于 以 上 原因 ,sigmoid 因数 是 使 用 最 广 谤 的 激活 函数 ,在 以 下 的 大 多 数 情况 下 我 们 将 主 
要 采用 sigmoid 函数 。 
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6.8.2 sigmoid 函数 的 参数 

假定 我 们 要 使 用 sigmoid 型 的 激活 函数 ,那么 剩 下 的 工作 就 是 要 设 定 一 些 参数 。 最 好 使 
PALA 0 为 中 心 并 且 反 对 称 ,或 者 是 一 个 “ 归 ” 函 数 即 A net) = 一 flnet) ,而 不 是 恒 为 正 值 的 
mM. 56.8. 3 节 中 所 述 的 数据 预 处 理 方法 在 一 起 ,反对 称 的 sigmoid 可 获得 更 快 的 学 习 速 
度 。 输 入 变量 和 激活 函数 的 非 零 均 值 会 使 幸 森 矩阵 的 本 征 值 变 得 很 大 (6. 9.1 节 ), 这 将 减 慢 
学 习 速 度 ,以 下 我 们 将 会 看 到 。 

具有 下 列 形式 的 sigmoid 函数 可 以 很 好 的 工作 : 


1 一 eb | a 


| +e net = ] + ener 加 (34) 


f(net) =a tanh(b net) =a | 


在 这 里 ,函数 的 动态 范围 和 斜率 并 不 重要 ,因为 影响 学 习 的 只 是 与 参数 集 之 间 的 关系 ,这 些 参 
数 包 括 学 习 率 .输入 信号 和 目标 信号 的 幅 值 等 (习题 23)。 为 了 方便 ,在 式 (34) 中 我 们 取 a= 
1.716 和 8 一 2/3 从 而 保证 广 (0)<*0.5, 并 且 线 性 范围 为 一 1<net< 十 1, 以 及 二 阶 导数 的 
极 值 大 致 发 生 在 net~+2 处 (图 6-14) 。 


图 6-14 一 个 有 用 的 激活 肾 数 是 一 个 反对 称 的 finet) 
sigmoid HX, MTIERPREHSR, f (net) 在 | 
一 1< net<~ 十 1 范围 内 几乎 是 线性 的 , 它 的 二 阶 导 数 
fne) Æ net~+2 附近 取得 极 值 











6.8.3 输入 信号 尺度 变换 

假设 我 们 使 用 2- 输 入 的 网 络 ,利用 质量 (以 克 为 单位 ) 和 长 度 ( 以 米 为 单位 ?特征 来 对 鱼 进 
行 分 类 。 这 种 表示 法 对 于 一 个 神经 网 络 分 类 髓 来 说 将 具有 严重 的 不 足 之 处 :质量 的 数值 将 比 
长 度 的 数值 大 几 个 数量 级 。 在 训练 的 过 程 中 ,网 络 将 更 多 的 根据 质量 输入 来 调节 权 值 一 一 从 
而 误差 率 几 乎 不 依赖 于 数值 很 小 的 长 度 值 。 但 是 ,如 果 采 用 同样 的 物理 信息 ,而 质量 用 千克 做 
单位 ,长度 用 豪 米 做 单位 ,情况 就 会 反 过 来 。 当 然 我 们 不 希望 我 们 的 分 类 器 仪 根据 这 些 特征 中 
的 某 一 种 做 判断 , 仪 仅 因 为 它们 在 (数值 ) 表 示 上 有 所 不 同 。 黄 至 对 于 采用 相同 单位 但 不 同 的 
(数值 ) 幅 度 的 特征 也 会 产生 困难 一 一 比如 ,一 条 鱼 的 长 度 和 鱼 鳍 的 厚度 均 以 mm 为 单位 进行 
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测量 ，。 

为 了 避免 这 样 的 困难 发 生 ,输入 模式 必须 重新 进行 尺度 变换 (scaling), 从 而 使 得 在 全 部 训 
练 集 上 ,每 个 特征 的 均值 为 0, 并且 都 具有 相同 的 方差 一 一 这 里 取 1. 0 ,其 原因 将 在 6. 8. 8 节 中 
阐明 。 也 就 是 说 ,必须 进行 训练 数据 的 “规格 化 ”Cnormalization) 。 这 种 “规格 化 ”的 作用 同 第 2 
章 提 到 的 应 用 于 训练 集 上 的 白化 处 理 类 似 , 只 需要 在 网 络 训练 开始 前 做 一 次 , 即 一 劳 永 逸 , 计 
算 负 担 并 不 大 (习题 27) 。 规 格 化 只 能 够 在 随机 学 习 和 成 批 学 习 协 议 中 做 ,而 不 能 在 在 线 学 习 
协议 中 做 ,因为 在 其 中 任意 一 次 学 习 中 不 可 能 得 到 整个 数据 集 。 当 然 ,任意 的 测试 模式 在 被 网 
络 分 类 之 前 也 必须 通过 同样 的 规则 进行 规格 化 。 
6.8.4 目标 值 

对 于 模式 识别 来 说 ,典型 的 方法 是 以 模式 样本 和 它 的 类 别 标 记 做 训练 ,从 而 采用 “c 中 到 
1” 的 方式 来 表示 目标 向 量 。 由 于 输出 单元 在 士 1.716 处 达到 饱和 (图 6-14) ,我 们 可 能 会 想 当 
然 地 认为 目标 值 就 应 该 是 这 个 值 , 但 是 ,这 会 引起 困难 :对 于 任意 有 限 的 net, 值 ,输出 永远 不 可 
能 达到 饱和 值 ,一定 存在 误差 ,整个 训练 过 程 将 因此 无 法 终止 ,因为 随 着 net, Bi TF o, A i 
将 变 得 非常 大 。 

通过 利用 教师 信号 十 1 和 一 1( 例 如 十 1 代表 目标 种 类 ,一 1 代表 非 且 标 种 类 ) 可 以 避免 以 
上 困难 。 比 如 ,在 一 个 四 类 问题 中 ,如 果 模 式 属于 种 类 w,, 则 应 该 使 用 如 下 的 目标 矢量 : 
t 二 (一 1, 一 1, 十 1, 一 1)*。 显 然 , 这 种 目标 值 的 取 法 可 产生 有 效 的 类 别 学 习 一 一 此 处 的 输出 并 
不 代表 一 个 后 验 概率 (6. 6. 2 节 ) 。 
6.8.5 带 噪声 的 训练 法 

当 训 练 集 很 小 时 ,可 以 构造 一 个 虚拟 的 或 替代 的 训练 模式 来 使 用 ,就 好 像 它们 是 从 源 分 布 
中 抽样 出 来 的 正常 的 训练 模式 。 在 没有 具体 的 特定 信息 时 ,一 个 自然 的 假设 就 是 此 替代 模式 
应 该 加 入 一 个 红 维 高 斯 噪声 以 获得 真实 的 训练 点 。 特 别 的 ,对 于 6. 8. 3 节 中 所 述 的 规格 化 的 
输入 信号 ,附加 噪声 的 方差 应 该 小 于 1.0( 如 0. 1), 且 类 别 标 记 保 持 不 变 。 这 种 有 噪声 的 训练 
方法 实际 上 可 用 于 任 一 分 类 方法 ,尽管 对 于 高 度 局 部 化 的 分 类 器 (如 基于 最 近邻 法 的 分 类 器 )， 
它 通常 并 不 改善 准确 率 。 
6.8.6 ”人工 “制造 ”数据 

如 果 我 们 掌握 有 关 模 式 畸 变 特性 的 先 验 知 识 , 比 如 , 某 种 “几何 不 变性 ”, 我 们 可 以 人 工 “ 制 
造 "(manufacturing) 出 一 些 能 传达 更 多 信息 的 训练 数据 ,以 代替 6. 8. 5 节 的 加 有 不 相关 噪声 
的 训练 方法 。 例 如 ,在 一 个 光学 字符 识别 问题 中 ,一 输入 图 像 可 能 以 不 同 角度 旋转 。 因 此 在 训 
练 过 程 中 我 们 可 以 选取 任意 特定 的 训练 模式 ,并 将 图 像 旋转 以 “制造 ?出 新 的 训练 点 ,这样 可 构 
成 一 更 大 的 训练 集 。 类 似 地 ,我 们 尺度 化 一 个 模式 ,进行 简单 的 图 像 处 理 以 模拟 出 某 个 黑体 字 
符 ,等 等 。 如 果 我 们 具有 预期 的 旋转 角度 的 范围 信息 ,或 者 字符 笔画 的 宽 窗 , 则 可 以 “制造 > 相 
应 的 数据 。 

尽管 此 方法 等 价 于 在 最 大 似 然 法 中 嵌入 先 验 信息 ,但 它 通常 更 易于 实现 ,因为 我 们 仅 需 要 
构造 模式 的 前 向 模型 。 同 “加 噪声 的 训练 法 ”一 起 , “制造 ”数据 的 方法 可 用 于 大 量 的 模式 识别 
方法 中 。 缺 点 是 需要 很 大 的 存 贮 空间 以 及 整体 训练 比较 慢 。 
6.8.7 RATH 

尽管 输入 和 输出 单元 数 分 别 由 输入 向 量 的 维 数 和 类 别 数目 决定 ,但 隐 单 元 个 数 并 不 简单 
地 与 此 分 类 问题 的 外 在 特性 相关 。 隐 单元 个 数 ar 决定 了 网 络 的 表达 能 力 一 一 从 而 决定 了 判 
决 边界 的 复杂 度 。 如 果 模 式 较 易 分 开 或 线性 可 分 ,那么 仅 需要 较 少 的 隐 单 元 ;相反 ,如 果 模 式 
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是 从 具有 较 高 分 散 性 的 复杂 概率 密度 中 抽取 的 , 则 需要 更 多 的 隐 单 元 。 在 没有 更 多 信息 的 情 
况 下 是 没有 简单 方法 可 以 在 训练 之 前 设置 隐 单 元 数 的 。 

图 6-15 显示 了 仅 在 隐 单 元 个 数 上 有 所 差别 的 网 络 的 两 类 分 类 问题 的 训练 错误 和 测试 锯 
误 。 对 于 较 大 的 ng ,训练 误差 率 可 变 得 较 小 ,这 是 因为 此 网 络 具 有 较 高 的 表达 能 力 , 可 精细 地 
调谐 到 特定 的 训练 集 上 。 但 是 ,在 这 种 场合 下 ,对 测试 样本 的 误差 率 会 高 到 令 人 无 法 接受 的 地 
步 . 是 一 个 “过 拟 合 ” 的 例子 ,我 们 将 在 第 9 章 中 再 次 提出 这 个 问题 。 另 一 个 极端 是 ,如 采 隐 单 
元 数 太 少 ,网 络 将 不 具备 足够 的 自由 度 以 较 好 地 拟 合 训练 数据 ,测试 误差 率 依然 很 高 。 对 隐 单 
元 数目 .需要 寻找 某 折 中 值 , 以 获得 较 低 的 测试 误差 率 。 

图 6-15 对 于 充分 训练 的 网 络 在 Jin 


隐 单 元 数 wr 不 同 的 情况 下 ,每 个 模 040 
式 的 分 类 误差 率 。 每 个 2-ns-1 网 03 


络 ( 有 偏 置 ) 由 两 类 样本 中 每 一 类 的 测试 

90 个 二 维 模式 进行 训练 ,这 些 模 式 030 

是 从 3 个 高 斯 分 布 的 混合 分 布 中 取 

样 出 来 的 ,因此 w 一 180。 测 试 误差 0 i 


率 的 最 小 值 取 在 范围 4S n SC BY 0.20 

权 值 数 范围 从 17 到 21) 内 。 这 也 显 

示 了 那 条 经 验 规则 的 作用 , 即 选取 O19 9 3 17 21 2) 29 33 BF. 

大 臻 具有 0/10 个 权 值 的 网 络 通常 

可 以 获得 较 低 的 误差 率 2 3 4 E é T > B 

隐 单 元 数 决 定 了 网 络 中 总 的 权 值 数 一 一 我 们 将 其 看 成 是 自由 度 的 个 数 一 一 从 而 可 以 认 
为 , 权 值 数 不 应 该 比 总 的 训练 点 数 n 多 。 一 个 简便 的 经 验 规 则 就 是 选取 隐 单 元 的 个 数 , 使 得 网 
络 中 总 的 权 值 数 大 致 为 n/10。 这 在 很 多 实际 问题 中 都 取得 较 好 的 效果 。 但 是 必须 注意 ,有 许 
多 成 功 的 系统 引入 了 更 多 的 隐 单 元 数 。 一 个 更 基本 的 方法 是 根据 训练 数据 相应 的 调节 网 络 的 
复杂 程度 ,比如 , 先 从 一 个 较 “ 大 ”的 隐 单 元 个 数 开 始 , 然 后 “衰减 ? 权 值 或 者 消去 权 值 一 一 我 们 
将 在 6. 11 节 和 第 9 章 中 学 习 这 类 技术 。 
6.8.8 权 值 初始 化 

首先 ,从 式 (21) 中 可 以 看 出 ,我 们 不 能 将 权 值 初始 化 为 0, 和 否则 学 习 过 程 将 不 可 能 开始 。 
因此 我 们 面临 着 一 个 选取 它们 的 初始 值 的 问题 。 假 设 我 们 已 经 固定 了 网 络 的 拓扑 结构 , 且 设 
置 了 隐 单 元 数 。 现 在 要 设置 初始 权 值 以 获得 快速 和 均衡 地 学 习 , 后 者 是 说 ,所 有 权 值 几乎 同时 
达到 最 终 的 平衡 值 。 非 均衡 学 习 的 一 种 形式 是 某 种 类 别 比 其 他 类 别 先 学 习 好 。 在 这 种 非 理 想 
的 情况 下 ,误差 率 分 布 比 贝 叶 斯 情况 相差 其 远 ,总 的 误差 率 通 常 高 得 不 可 接受 。( 前 面 所 述 的 
数据 规格 化 也 可 促进 均衡 学 习 的 实现 。) 

在 某 一 给 定 层 上 设置 权 值 时 ,我 们 从 单个 分 布 中 任意 选取 权 值 以 促进 均衡 学 习 。 因 为 数 
据 规格 化 给 出 了 平均 相等 的 正 数 和 负数 ,我 们 也 需要 正 的 和 负 的 权 值 ;因此 我 们 从 一 个 均匀 分 
布 一 书 过 Ww 过 十 训 中 选取 权 值 ,仍然 需要 确定 冲 的 值 。 如 果 刷 选 得 太 小 ,一 个 隐 单 元 的 网 络 激励 
将 较 小 ,因而 只 有 线性 模型 将 被 实现 。 或 者 ,如 果 访 太 大 , 隐 单 元 甚至 可 能 在 学 习 开 始 前 就 达 
到 饱和 。 因 为 net; ~ tl 是 线性 范围 的 限定 条 件 ,我 们 设置 已 使 得 网 络 在 一 个 隐 单 元 上 的 激励 
在 范围 一 1 过 neit; 过 十 1 内 (图 6-14). 

为 了 计算 而 ,考虑 一 个 隐 单 元 可 以 接收 d 个 输入 单元 的 输入 。 还 假设 用 相同 的 分 布 , 即 一 
个 一 冲 过 w 过 十 太 范 围 内 的 均匀 分 布 ,来 初始 化 所 有 的 权 值 。 那 么 平均 起 来 ,从 方差 为 1.0 的 任 
意 d 个 变量 作为 标准 输入 ,通过 这 样 的 权 值 后 的 净 激 活 为 Wd。 如 前 所 述 , 我 们 希望 此 净 激 活 
限制 在 一 1 二 net 二 十 1 范围 内 。 这 说 明 古 = 二 1/Vd; 因 此 输入 权 值 应 该 选取 在 一 1/vVd 二 wi 二 
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十 1/Vd 范 围 内 。 对 从 隐 含 层 到 输出 层 权 值 的 讨论 相同 ,这 里 连接 单元 数 为 nn ; 隐 含 层 到 输出 
层 权 值 的 初始 值 应 该 在 一 1/Vrns <w <ln ARAN. 
6.8.9 学 习 率 

原则 上 ,只 要 学 习 率 足够 小 以 保证 收敛 ,那么 它 的 值 仅 仪 决定 网 络 到 达 准 则 淆 数 J w) a 
小 值 的 速度 ,而 并 不 决定 最 终 的 权 值 大 小 。 但 实际 上 ,由 于 网 络 很 少 能 充分 训练 到 使 误差 确实 
达到 最 小 值 (6. 8.14), 因 此 学 习 率 实际 上 可 以 影响 到 最 后 的 网 络 性 能 。 如 果 某 些 权 值 比 其 他 
权 值 收敛 得 早 得 多 ( 非 均 衡 学 习 ) ,那么 网 络 在 整个 输入 范围 内 ,或 者 对 每 一 类 模式 的 执行 效果 
可 能 会 不 平等 。 网 6-16 显示 了 不 同学 习 率 在 某 一 维 上 的 收敛 效果 。 





J J J J 
\ <MNopr \ N=Nopi Nope<K2 Nopr | N>2Nont 
| \ 
| 
| \ 
| \ 
Ww ; w Oy. w 
w* w* 





图 6-16 使 用 不 同学 习 率 的 某 一 维 二 次 型 准则 函数 的 梯度 下 降 情况 。 如 果 <n ,可 保证 收敛 ， 
但 训练 速度 太 慢 。 如 果 7 二 mp ;只 需 训 练 一 步 就 可 以 找到 最 小 误差 。 如 果 ay. SPC ho ;系统 将 振 
荡 但 仍然 收敛 ,只 是 训练 速度 太 惕 。 如 果 p> 2y, ,系统 发 散 


最 优 的 学 习 率 是 经 过 一 步 学 习 获 得 的 局 部 误差 最 小 的 那 一 个 。 设 置 学 习 率 的 一 个 基本 方 

法 是 假设 准则 函数 jw) 可 以 合理 地 近似 为 一 个 二 次 函数 ,于 是 给 出 : 
èJ 2 
Ow? = aw 


如 图 6-17 所 示 。 最 优 学 习 率 可 直接 求 出 : 
3J! 


图 6-17 如果 准 则 函数 是 二 次 的 (上 ) ,那么 它 的 导数 是 线性 
的 (下 )。 最 优 学 习 率 np 保证 产生 最 小 误差 的 权 值 ww* 可 在 一 
步 学 习 中 求 出 


(35) 
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当然 可 保证 收敛 的 最 大 学 习 率 为 nx 二 27%w。 应 该 注意 到 处 于 Qop SYK 2 yp 范围 内 的 学 
习 率 7 将 导 臻 较 慢 的 收 合 速度 (上 机 练习 8) 。 

因此 ,对 于 快速 日 均衡 的 学 习 , 我 们 必须 计算 准则 阻 数 对 每 一 权 值 的 二 阶 导 数 , 并 对 每 一 权 值 
分 别 设置 最 优 学 习 率 。 在 6.9 市 我 们 还 会 回 到 网 络 二 阶 导 数 计算 的 问题 上 来 ,并 且 介 绍 另外 的 下 降 
和 训练 算法 。 对 于 本 节 所 讨论 的 sigmoid 型 网 络 和 参数 设置 的 典型 问题 ,我们 发 现 学 习 率 首先 设 为 
7 0. 1 就 足够 了 ,然后 ,如 果 准 则 函数 在 学 习 过 程 中 发 散 , 则 将 学 习 率 调 小 ,反之 ,如 果 学 习 速 度 过 
慢 , 则 将 学 习 率 调 大 。 
6.8.10 冲 量 项 

误差 曲面 通常 有 一 些 " 平 坦 区 (piateau) ”一 一 是 指 这 样 一 种 区 域 , 其 中 的 斜率 dJCw)ydw 
非常 小 。 当 权 值 的 个 数 “ 非 常 多 ”而 使 得 最 终 误差 对 每 个 权 值 的 依赖 性 都 很 小 时 ,就 会 产生 这 
些 区域 。“ 冲 量 "(momentum) 的 概念 ,大 致 基 于 如 下 的 物理 定律 , 即 除非 受到 外 力 的 作用 , 否 
则 运动 的 物体 将 一 直 保 持 运 动 状态 。 而 在 反问 传播 算法 中 引入 “ 冲 量 ” 项 的 目的 在 于 :允许 当 
误差 曲面 中 存在 平坦 区 时 ,网 络 可 以 以 更 快 的 速度 学 习 。 该 方法 将 随机 反 向 传播 中 的 学 习 规 
则 修改 为 包含 了 以 前 权 值 更 新 量 的 a 售 。 设 Aw(m) 二 wm) 一 wm 一 1), 并 且 设 Aw, (m) 为 
wm 标准 反 传 算法 所 要 求 的 改变 晤 ,反问 传播 算法 于 是 被 修改 为 含有 冲 量 项 的 反 向 传播 学 习 

wim + 1) = wim) 十 (1 一 QQ)Awpp() + a@Aw(m — 1) (37) 


熟悉 数字 信号 处 理 的 人 将 会 意识 到 这 是 一 个 递归 的 或 无 限 冲 激 响 应 低 通 滤波 器 (IIR- 
LPF) ,目的 是 用 来 平滑 w 的 变化 。 显 然 ,a 不 应 为 负 值 ,并 且 为 了 稳定 性 的 考虑 a 应 该 小 于 
10, WR a= 0, 算 法 同 标准 反 疝 传播 相同 。 如 果 ax=1, 反 向 传播 算法 所 提出 的 变化 将 被 忽 
略 , 且 权 值 回 量 以 恒定 的 速度 变化 。 如 果 a 较 小 , 权 值 的 变化 与 标准 反 向 传播 很 接近 ,如 果 a 
较 大 , 则 变化 将 比较 迟缓 。( 通 常 使 用 的 值 为 a0. 9)。 因 此 , 冲 量 的 使 用 “平均 化 ”了 随机 学 
习 过 程 中 权 值 的 随机 更 新 ,增加 了 稳定 性 。 它 可 以 加 快 学 习 过 程 ,甚至 可 以 远离 常常 引起 错误 
的 平坦 区 (图 6-18)。 

图 6-13 通过 式 (37) 将 冲 量 散 入 随机 梯度 下 降 法 中 (红色 箭头 )， Iw) 

减少 了 总 体 梯 度 方 向 的 偏离 ,从 而 加 快 了 学 习 速 度 | 





算法 3 iba SO ARE PRE PNK. 
算法 3 ( 带 冲 量 的 随机 反 向 传播 ) 


1 begin initialize ny ,w,a(<.1) ,0,7,m<0,b,<-0,6,,<-0 
2 do m<m+1 
3 x"< 随机 选择 的 模式 
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4 biy —a)ð x tab; bunda)’, y; Hab 
D Wi Wj HO; We Wy HP 
6 until (YJO) <0 

7 return w 

8 end 


6. 


Co 


11 权 值 衰减 

一 种 简化 网 络 以 及 避免 过 拟 合 的 方法 是 加 入 一 个 启发 式 规 则 , 即 权 值 应 当 比 较 小 。 没 有 
基本 的 理由 可 以 解释 为 什么 这 种 “ 权 值 衰减 ”法 常常 会 提高 网 络 的 性 能 (的 确 , 某 些 情况 下 它 可 
能 会 降低 网 络 性 能 ) ,但 在 大 多 数 情况 下 它 确实 可 以 提高 性 能 。 基 本 的 方法 是 从 具有 “非常 多 ” 
的 权 值 的 网 络 开 始 , 然 后 在 训练 过 程 中 “衰减 ”(decay) 所 有 的 权 值 。 小 权 值 更 加 适合 线性 的 模 
型 (习题 1 和 41) 。 权 值 彭 减法 如 此 普遍 的 一 个 原因 是 它 的 简便 性 。 每 次 权 值 更 新 之 后 ,每 一 
个 权 值 仅仅 只 是 根据 


wre’ = w4(] — e) (38) 


进行 ”衰减 "或 "收缩 ”, 其 中 0 二 e<<1。 通 过 这 种 方式 ,对 降低 误差 函数 不 起 作用 的 权 值 将 变 得 
越 来 越 小 ,可 能 对 于 如 此 小 的 一 个 值 ,它们 可 被 完全 去 除 掉 。 而 真正 对 解决 问题 有 用 的 那些 权 
值 不 会 随便 被 衰减 。 这 样 , 在 权 值 衰减 中 ,系统 就 会 在 模式 误差 ( 式 (67)) 和 总 权 值 的 某 种 度量 
之 间 获 得 一 种 平衡 。 可 证 明 ( 习 题 42) 对 于 一 个 新 的 有 效 误 差 或 准则 函数 


2€ 
Jer = IW) + WW (39) 


权 值 衰减 和 梯度 下 降 是 等 效 的 。 式 (39) 右 边 第 二 项 有 了 时 被 称 为 “正则 项 ”(regularization 
term), 它 优先 惩罚 一 个 较 大 的 权 值 。 权 值 襄 减 的 另 一 种 方法 使 用 一 个 训 减 参数 , 它 取决 于 权 
值 本 号 的 大 小 ,并 将 惩罚 分 散 于 整个 网 络 : 

26 > wi; | (ww) 


Joep = J(w) 十 一 
f = J (w) 7 t+ wh ww) 


(40) 
LJ 
6.8.12 线索 

通常 我 们 不 具备 足够 的 训练 数据 以 获得 理想 的 分 类 准确 率 , 并 和 希望 增加 一 些 信 息 和 限定 条 
件 来 提高 网 络 性 能 。 通 过 线索 (hint) 进 行 学 习 的 方法 就 是 增加 输出 单元 来 执行 一 个 附加 问题 ,该 
附加 问题 不 同 于 但 又 相关 于 手头 特定 的 分 类 问题 。 扩 展 网 络 可 能 同时 由 感 兴趣 的 问题 和 附加 问 
题 进行 训练 。 比 如 ,假设 我 们 训练 一 个 网 络 来 对 基于 某 个 听觉 输入 的 c 个 音素 进行 分 类 。 在 一 
个 标准 的 神经 网 络 中 应 具有 c 个 输出 单元 。 通 过 线索 进行 学 习 , 我 们 可 能 增加 两 个 附加 输出 单 
元 ,一 个 代表 元 音 , 另 一 个 代表 辅音 。 在 训练 过 程 中 ,目标 向 量 必 须 增 广 以 包含 线索 输出 元 。 在 
分 类 过 程 中 ,线索 单元 没有 用 ,它们 和 它们 的 从 隐 含 层 到 输出 层 的 权 值 可 以 去 掉 ( 图 6-19)。 

由 线索 所 提供 的 好 处 就 是 改进 了 特征 选择 。 只 要 线索 与 手头 分 类 问题 相关 ,对 于 线索 任 
务 较为 有 用 的 特征 组 合 很 可 能 会 促进 类 别 的 学 习 。 比 如 ,对 于 将 元 音 发 音 同 辅音 区 分 开 来 比 
` 较 有 用 的 特征 组 合 通 常 很 可 能 对 于 将 /b/ 从 /oo0/ 或 者 /g/ 人 队 /ii/ 中 分 开 来 比较 有 效 。 或 者 ,可 
以 仅 训练 线索 单元 以 提高 隐 单 元 的 表达 能 力 。 

通过 线索 进行 学 习 还 说 明了 神经 网 络 的 另 一 个 优点 :线索 信息 比 基 于 其 他 算法 的 分 类 器 
(如 最 近邻 或 MARS) 更 易于 般 入 到 神经 网 络 中 。 
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图 6-19 ”在 通过 线索 的 学 习 中 ,一 z 线索 
个 具有 c 种 类 别 单 元 的 标准 网 络 的 o o Me Ay hy 
输出 层 通过 线索 单元 进行 增 广 。 输出 层 eee 
在 训练 过 程 中 ,目标 向 量 也 通过 线 
索 单元 的 信号 进行 增 广 。 以 这 种 
方式 ,输入 层 到 隐 含 层 的 权 值 学 习 
改进 了 特征 组 合 的 效果 。 线 索 单 pgp 
元 在 分 类 过 程 中 未 被 使 用 ,因而 可 
以 将 这 些 单 元 以 及 它们 到 隐 含 层 
的 权 从 训练 好 的 网 络 中 去 掉 
输入 层 


6. 


oo 


.13 在 线 训 练 . 随 机 训练 或 成 批 训 练 
6.3.2 节 中 所 述 的 3 个 主要 的 训练 协议 各 自 都 具有 优 缺 点 。 当 训练 数据 很 多 ,或 者 当 内 
存 消耗 很 大 而 无 法 存储 数据 时 , 常 采用 在 线 学 习 。 而 大 多 数 实际 的 神经 网 络 分 类 问题 都 是 采 
用 成 批 或 随机 协议 。 

成 批 学 习 通 常 比 随机 学 习 慢 。 为 了 说 明 这 一 点 ,考虑 一 个 共有 50 个 模式 的 训练 集 , 其 中 
5 种 模式 (x ,x ,… ) 的 每 一 种 各 有 10 个 模式 。 在 成 批 学习 中 ,x 的 重复 出 现 所 提供 的 信息 
同 随机 情况 下 x 的 单 次 出 现 一 样 多 。 比 如 ,假设 在 成 批 情 况 下 ,学 习 率 已 经 进行 最 优 设 置 。 
只 要 学 习 率 相应 设置 得 更 高 一 些 , 成 批 情况 中 的 5 种 不 同 模式 的 单 次 提供 (给 网 络 ) 就 能 获得 
同样 的 权 值 变化 。 当 然 , 实 际 问 题 并 不 需要 精确 复制 各 个 模式 ,尽管 如 此 ,由 于 实际 数据 集 通 
常 有 高 的 元 余 度 ,所 以 上 述 分 析 仍 然 成 立 。 | 

对 于 大 多 数 应 用 一 一 尤其 是 引入 大 量 元 余 的 训练 集 的 应 用 一 一 将 采用 随机 训练 。 成 批 训 
练 也 适合 于 不 易 能 入 随机 学 习 协 议 的 “二 阶 技术 ”, 因 此 在 某 些 问 题 中 将 被 采用 ,关于 这 一 点 我 
们 将 在 6. 9 节 中 看 到 。 
6.8.14 人 和 仿 止 训练 

在 具有 很 多 权 值 的 三 层 网 络 中 ,过 多 的 训练 会 导致 较 差 的 测试 效果 ,这 是 由 于 网 络 实现 了 一 
个 复杂 的 判决 边界 因而 推广 性 很 差 ,该 判别 边界 过 分 调谐 到 特定 的 训练 数据 上 , 而 并 非 实际 分 布 
的 一 般 特 性 。 在 第 5 章 的 对 两 层 网 络 的 训练 中 ,我 们 想 怎 样 训练 就 怎样 训练 ,而 不 用 担心 它 会 降 
低 最 终 的 识别 率 , 这 是 因为 判决 边界 的 复杂 度 不 变 通常 只 是 一 个 超 平面 。 出 于 这 种 考虑 , 因 
此 上 述 现 象 一 般 称 为 “过 拟 合 ”(overfitting) , 而 不 是 “过 训练 ”(overtraining) 。 

由 于 网 络 权 值 初始 化 为 较 小 的 值 ， 这 些 单元 执行 在 它们 的 线性 范围 内 ,整个 网 络 实现 线 
性 判别 。 随 者 训练 的 进行 ,这 些 单元 的 非 线 性 逐渐 显现 出 来 ,判决 边界 变 弯 。 征 性 地 说 ,在 梯 
度 下 降 完 成 之 前 执行 “停止 训练 ?可 以 避免 “过 拟 合 >。 实际 上 ,很 难 预先 知道 算法 1 中 第 5 行 
的 停止 准则 9 应 该 怎样 设置 。 一 个 更 加 简单 的 方法 是 , 当 在 一 个 独立 的 验证 集 上 的 误差 达到 
最 小 时 (图 6-6) ,就 应 该 停止 训练 。 第 9 章 中 我 们 将 寻找 支持 “验证 技术 ”或 更 一 般 的 “交叉 验 
证 ”技术 的 理论 。 顺 便 注意 到 , 权 值 的 衰减 行为 就 好 像 一 种 停止 训练 的 形式 (图 6-20). 
6.8.15 Meeks 

反 疝 传播 算法 同样 适用 于 三 层 、 四 层 或 更 多 层 的 网 络 , 只 要 这 些 层 上 的 单元 具有 微分 激活 
函数 。 因 为 我 们 已 经 看 到 ,三 层 网 络 足 够 执行 任意 复杂 的 函数 映射 ,于 是 ,除非 有 特殊 的 限制 
或 者 需要 的 时 候 ,我 们 才 建 议 使 用 多 于 三 层 的 网 络 。 
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图 6-20 ”当权 值 初始 化 为 较 小 的 量 时 ,“ 停 止 训练 "的 采用 站 
使 得 最 终 的 权 值 比 继续 训练 后 的 值 要 小 。 由 此 ,停止 训练 
的 行为 如 同一 种 权 值 衰减 的 形式 





初始 权 值 





W] 


一 种 可 能 的 需要 是 对 平移 .旋转 或 其 他 变换 的 不 变性 。 如 果 输 入 层 表示 光学 字符 识别 系 
统 中 的 像素 图 像 ,一 般 希 望 该 识别 器 对 这 些 变换 保持 不 变 。 四 层 网 络 比 三 层 网 络 更 容易 学 习 
变换 。 这 是 内 为 在 有 限 的 参数 范围 内 ,每 一 层 通常 能 够 较 容 易 地 学 习 一 种 变换 一 一 比如 仅 两 
个 像素 的 横向 平移 。 那 么 , 当 整 个 不 变性 的 任务 可 以 分 布 于 整个 网 络 时 ,多 个 层 的 堆 硬 
(stack) 人 允许 整个 网 络 学 习 直 到 4 个 像素 的 交换 。 当 然 , 权 值 初始 化 .学 习 率 以 及 数据 预 处理 
的 讨论 同样 适用 于 这 种 网 络 。 革 些 图 数 可 以 在 具有 多 于 一 个 隐 含 层 的 网 络 中 得 以 更 有 效 的 实 
现 ( 也 就 是 说 ,只 需要 更 少 的 总 单元 数 ) 。 不 过 ,实验 证 明 具 有 多 个 隐 含 层 的 网 络 更 易于 陷 人 局 
部 极 小 值 中 。 

于 是 ,在 没有 一 个 特定 的 理由 要 求 使 用 多 个 隐 含 层 时 ,仅仅 使 用 一 个 隐 含 层 进行 处 理 是 最 
简单 的 。 如 果 有 必要 ,也 可 以 尝试 两 个 隐 含 层 。 
6.8.16 REAR) HR 

式 (9) 中 的 平方 误差 准则 是 最 常见 的 训练 准则 ,因为 它 是 非 负 的 , 较 易 计算 , 且 简 化 了 某 些 
定理 的 证 明 。 然 而 ,其 他 的 训练 准则 有 时 候 也 有 一 些 好 处 。 一 种 较为 普遍 的 选择 是 “ 互 箭 ” 
(cross entropy), 它 度量 概率 分 布 间 的 “距离 ”。n 个 模式 的 互 焙 的 形式 如 下 : 


Jee (w) = >》 5 tmk (tmk /Zmk) (41) 


m=] k=l 
其 中 tm PA zm TIERA m 的 第 k 个 单元 的 目标 值 和 实际 输出 值 。 显 然 ,为 将 本 解释 为 炉 , 目 
标 值 和 输出 值 必须 解释 为 概率 ,因此 必须 落 于 0 到 1 之 间 。 
还 有 一 种 准则 函数 基于 闵可夫 斯 基 误 差 : 


Jmink (W) 一 》 9 lm (X) — tm (x) (42) 


m=1 k=l 

在 第 4 章 中 有 较 多 的 叙述 。 推 导 该 误差 的 反 向 传播 规则 是 一 件 十 分 简单 的 事情 (习题 30)。 
尽管 一 般 情 况 下 该 规则 比 我 们 所 考虑 的 (R=2) 的 平方 和 误差 稍微 复杂 一 些 ,1 委 R 一 2 的 闵 可 
夫 斯 基 误 差 减 少 了 分 布 中 长 拖 尾 的 影响 ,有 时 可 能 是 离 类 别 判决 边界 很 远 的 拖 尾 。 因 此 ,设计 
者 可 以 间接 地 通过 选择 R 的 值 来 调节 分 类 器 的 局 部 性 ;R 值 越 小 , 则 分 类 器 的 局 部 性 越 强 。 

本 厄 介绍 的 大 多 数 实用 的 启发 式 技 术 可 以 单独 使 用 ,也 可 以 会 起 来 用 。 尽 管 它 们 可 能 以 
某 些 无 法 预料 的 方式 相互 作用 。 但 是 由 于 它们 在 很 多 重要 的 模式 识别 问题 中 都 很 有 用 ,设计 
者 需要 掌握 所 有 的 方法 。 


“6.9 二 阶 技 术 
我 们 曾 采 用 误差 的 二 阶 分 析 法 来 确定 最 优 学 习 率 。 也 可 以 用 其 他 的 方式 来 更 充分 地 利用 
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二 阶 信息 ,其 中 包括 对 网 络 中 不 必要 的 权 值 的 消去 。 
6.9.1 RIER 

我 们 已 获得 三 层 网 络 中 误差 平方 和 准则 函数 的 一 阶 导 数 ,由 式 (17) 和 (21) 表 示 。 现 在 来 
看 二 阶 导数 , 它 在 快速 学 习 法 以 及 一 些 前 枝 或 规格 化 算法 中 有 一 定 的 用 处 。 我 们 将 网 络 中 第 
见 的 误差 平方 和 准则 看 成 单个 的 输出 ， 


1 n 
IW) = 5 È (tm = Zm)? (43) 
m= 


其 中 加 和 zw DHE A ola S aS on EURO. A AREE OR 











yw) 1| 937 a g 92] 
-a 一 站 一 一 一 一 
Ow ji9 Wik n 2 Ow ji 9 wi + Le ) 3 dwn (44) 
V, 
O((|t—2\)) 


我 们 使 用 了 下 标 来 表示 网 络 的 任意 权 值 ;因此 :，7，! 和 都 可 赋 不 同 的 值 来 表示 输 和 人 层 到 隐 
含 层 的 权 值 ,或 者 隐 含 层 到 输出 层 的 权 值 ,或 者 两 者 的 混合 。 显 然 蔡 和 森 矩 阵 是 对 称 的 。 式 (44) 
的 第 二 项 是 高 阶 无 穷 小 量 Od t 一 z 上】 , 它 通常 较 小 而 被 忽略 。 该 近似 保证 了 逼近 结果 是 正定 
的 ,从 而 梯度 下 降 可 以 继续 进行 下 去 。 在 外 积 近 似 下 o A RAE E nI EN 


1 n 
Ha — SO yilgi] 
: 2 (45) 


其 中 上 标 Lmj 是 模式 的 索引 ,X= 二 9J/9w 可 以 分 成 两 个 部 分 


X, 
x=( x) (46) 


此 处 X, 指 的 是 对 隐 含 层 到 输出 层 权 值 的 导数 ,XX 指 对 输入 层 到 隐 含 层 权 值 的 导数 。 对 于 一 
个 dnl 结构 的 三 层 神经 元 网 络 ,这 些 导 数 向 量 可 以 写 为 ( 习 般 31) 
X, = (f (net)yi, +++, f (net)yng) (47) 

及 

Xi, = (f (net) f (neti) yix, +f (net)f (netnp ) Yny Xny) (48) 
IR (45) 47) 和 (48) 表 明 赫 森 和 矩阵 的 近似 计算 可 通过 一 种 直接 的 方式 进行 。 
6.9.2 牛顿 法 

可 以 采用 泰 勤 级 数 的 展开 来 表达 准则 函数 随 权 值 变化 (Aw) 的 改变 : 
AJ(w) = J(w+ Aw) — J(w) 


~ (Be) Aw+ l Aw HAw 49) 
ow 2 
其 中 HERRER., AUDIT Aw 进行 微分 ,得 出 使 AJ(w) 最 小 化 的 条 件 为 
(=) +HAw =0 (50) 
aw | 


因此 , 权 值 的 最 优 变 化 可 表示 为 
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Aw = —H"-! (a) (51) 


如 图 6-17 所 示 。 因 此 ,在 梯度 下 降 中 使 用 牛顿 法 ,如 果 可 获得 第 m 次 迭代 时 的 一 个 权 值 估计 
(Bl wOn)) ,那么 采用 式 (51) 可 以 给 出 一 个 更 进一步 的 权 值 变 化 的 佑 计 , 即 
w(m + 1) = wim) + Aw (52) 
= wim) — H`! (m) (m) 
aw 
在 牛顿 法 中 利用 式 (52) 壕 代 计 算 w 的 值 。 

不 过 很 可 惜 ,这 种 简单 的 牛顿 法 有 一 些 缺 点 。 首 先是 对 于 一 个 具有 NN 个 权 值 的 网 络 , 算 
i STRACK N X N Wap AM ATR REE eA O(N ) ,这 除非 一 些小 问题 
之 外 都 不 切实 际 。 其 次 ,更 严重 的 是 ,在 非 二 次 型 误差 曲面 上 该 算法 可 能 不 收敛 ,这 在 实际 中 
经 常 发 生 。 但 是 ,对 牛顿 法 的 理解 可 以 为 性 能 更 好 的 算法 (如 6.9.4 节 的 共 轻 梯度 下 降 法 ) 的 
理解 提供 一 个 非常 好 的 基础 。 

6.9.3 Quickprop 算法 

一 种 最 简单 的 利用 二 阶 信息 来 提高 训练 速度 的 方法 是 Quickprop( 人 快速 传播 ) 算 法。 在 这 
种 方法 中 , 权 值 假设 为 独立 的 ,因此 下 降 过 程 可 以 对 每 个 权 值 分 别 进行 优化 。 误 差 曲 面 假设 是 
二 次 型 的 ,特定 的 抛物 线 的 系数 由 接 下 来 的 两 个 估 值 J(w) 和 dj(w)/dw 确 定 。 于 是 惟一 的 权 
值 ww 被 移动 到 抛物 线 的 的 最 小 值 处 (图 6-21)。 可 以 证 明 ( 习 题 35) 这 种 方法 可 导出 如 下 的 权 
值 更 新 规则 ， 


dj 


dw 1ma 一 1 dw Im 
其 中 的 导数 是 由 m 和 mm 一 1 RERI E HH 
如 果 误 差 中 的 三 阶 和 高 阶 项 不 可 忽略 ,或 者 如 果 权 值 独立 的 假设 不 成 立 ,那么 计算 所 得 的 
误差 极 小 值 将 不 等 于 真实 的 极 小 值 ,从 而 需要 更 进一步 的 权 值 更 新 。 当 引入 大 量 的 较 明显 的 
有 用 信息 时 一 一 以 减少 当 表面 几乎 是 平坦 的 时 候 的 错误 估计 的 影响 ,或 者 该 步骤 实际 上 增 大 
了 误差 一 一 这 种 方法 可 以 比 标准 的 反 向 传播 法 快 得 多 。 男 一 个 好 处 是 ,实际 上 每 一 个 权 值 都 
有 自己 的 学 习 率 ,而 收敛 却 是 趋 于 几乎 同时 完成 ,从 而 克服 了 由 非 均 衡 学 习 而 引起 的 问题 。 


图 6-21 ” Quickprop 权 值 更 新 算法 利用 了 隅 开 一 定 的 已 Jw) 
知 间距 的 两 个 点 处 的 误差 导数 ,通过 式 (53) 计 算 下 一 个 权 
值 。 如 果 误 差 可 由 一 个 二 阶 函 数 完 全 表示 ,那么 权 值 更 新 
过 程 将 最 终 获 得 对 应 最 小 误差 的 权 值 C(uw”) 








6.9.4 Fee Rik 

FP BER AY UE TE BE FEE (conjugate gradient descent), KEM MAKE 
空间 中 引入 了 一 系列 直线 搜索 。 一 次 沿 着 首次 下 降 的 方向 (如 简单 的 梯度 下 降 ) 移 动 直到 达到 
误差 的 局 部 极 小 值 。 于 是 计算 第 二 个 下 降 的 方向 :该 方向 就 是 所 谓 的 “ 共 恩 方向 ”, 它 就 是 指 在 


320 
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下 降 过 程 中 梯度 方向 不 改变 ,而 仅仅 只 是 幅 值 改变 的 方向 。 沿 该 方向 下 降 将 不 会 破坏 前 面 的 
下 降 步 又 的 贡献 (图 6-22). 
更 详细 地 说 , 设 Aw(m 一 1) 表 示 第 m 一 1 步 的 一 个 直线 搜索 的 方向 。 特 别 注意 没有 一 个 总 
的 变化 幅度 是 由 直线 搜索 所 决定 的 。 我 们 要 求 接 下 来 的 方向 Aw(m) En TFTA RRE: 
Aw'(m — 1)HAw(m)=0 (54) 
HP HERE., MERON FRA AIRA H”. RRS ee MLE Bl, AP 
ARED AEREA PEEK. KAR ERA TD AARPREB BE UEETM 
练 集 上 。 


H=] 





wy 


图 6-22 FERS PMR TR RSA T-AWHAHRBR. MR Aw(1) 是 首次 下 降 
的 方向 , 则 第 二 个 下 降 的 方向 满足 Aw (1)HAw(2)= 二 0。 特 别 注意 沿 着 此 第 二 个 方向 ,梯度 仅 在 
旺 度 上 有 所 变化 ,而 方向 不 变 ; 由 此 ,第 二 次 下 降 并 不 破坏 前 面 的 直线 搜索 的 贡献 。 在 赫 森 矩阵 
是 对 角 阵 的 情况 下 ( 右 ) ,直线 搜索 的 方向 是 正 交 的 


第 m 步 的 下 降 方 向 是 梯度 方 铅 加 上 一 个 沿 着 前 面 的 下 降 方 向 的 元 素 : 
Aw(m) = —VJ(w(m)) + Bm Aw(m — 1) (55) 


各 项 间 的 相互 比例 由 B 控制 。 此 比例 可 通过 确保 第 m ZEA PE SEAR om —1 步 以 
及 前 面 各 步 的 贡献 来 获得 。 通常 它 可 以 用 如 下 两 个 公式 中 的 一 个 来 计算 。 第 一 个 公式 
(Fletcher-Reeves 公式 ) 为 


TvywomDTvywom) 
Pa = Tt — Tp vt en 


另 一 个 好 一 些 的 公式 (Polak-Ribiere 公式 ) 为 
_ [VI (wim) FEV I (wm)) — VJ (wm — 1))] 
7 [VI (wim — 1) VJ (win — 1)) 
它 在 非 二 次 型 误差 函数 中 更 加 健壮 一 些 。 

式 (55) 和 式 (37) 说 明了 共 罗 梯度 下 降 算法 类 似 于 计算 一 个 “巧妙 ”的 冲 量 , 其 中 B, 相当 于 
一 个 冲 量 的 作用 。 如 果 误 差 函 数 是 二 次 的 ,那么 当 和 迭代 次 数 等 于 总 的 权 值 数 时 ,可 保证 共 轿 梯 
度 下 降 法 收敛 。 


Bm (57) 
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Bl 1 HEE TEA 
考虑 寻找 以 权 值 空 间 的 原点 为 中 心 的 一 个 简单 二 次 准则 函数 的 极 小 值 问题 ,jw) = 1/2 


(0. 2 巡 十 旭 )=1/2w'Hw, 其 中 通过 简单 的 求 导 发 现 赫 森 矩 阵 为 H= ( 我 们 从 任 选 的 


ee 
— 


8 
一 个 位 置 开始 下 降 ,在 此 例 的 图 示 中 这 个 任 选 的 位 置 正好 在 CO) = | ，)。 首 次 的 下 降 方向 


0.4 wi(0) S. 2 
由 简单 的 梯度 确定 ,该 梯度 很 容易 求 出 :一 VJ Cw(0)) 一 一 (，。 ,00) ) 一 ( 。)。 在 一 般 较 复 


杂 的 高 维 问题 中 , 极 小 值 利用 直线 搜索 沿 该 方向 找到 ;在 这 里 的 简单 情况 下 极 小 值 可 以 通过 计 
算 求 出 ,我 们 发 现 JIw) 的 极 小 值 满足 


BC) CS N+- 
解 出 s= 0.562。 因 此 该 方向 的 极 小 值 为 
w(1) = w(0) + 0.562(—Aj(w(0))) 
= (28) ose) = (622) 
BLE FRAT RS BRA — A PB RSE BE. wO) Ak ho BE A 


(0.4m (1)\ /2.48 
HO) = -( 2w(1) = (9e) 


很 容易 证 明 该 方向 ,图 中 黑色 箭头 所 示 , 并 不 指向 全 局 极 小 值 w" =0。 我 们 利用 Fletcher- 
Reeves ZAA (50 (56) ) SE #4 38 FE He 7 e: 


MO WRG), ERA OM veg) _. 713 _ pane 
B [V/(w(0))]}'VJ/(w(O)) E (=3.2 8)(-?) = oq AU 
对 此 以 及 所 有 的 二 次 误差 曲面 , Polak-Ribiere 公式 ( 式 (57)) 将 给 出 同 Fletcher-Reeves 公式 相 


等 的 值 。 从 而 共 轿 下 降 方 向 为 | 


By 


1.6 
Vw(1) = —Vj(w(1)) + Bi( 4 ) = ( 


2.788 
—0.223 


在 一 个 二 次 误差 区 域 (由 阴影 部 分 表示 ) 内 
的 共 杷 梯度 下 降 如 等 高 线 所 示 , 从 任意 一 点 。 
w(0) 开 始 ,通过 一 系列 的 直线 搜索 不 断 下 
降 。 第 一 个 方向 由 标准 的 梯度 给 出 ,并 在 一 
个 误差 极 小 值 一 点 w(1) 处 结束 。 从 w(1) 
开始 的 标准 梯度 下 降 将 沿 着 黑色 的 向 量 ， 
“破坏 ”了 由 第 一 次 下 降 所 获得 的 某 些 成 果 ; 
ME CRS RA. MR AMR 
度 ( 红 色 向 量 ) 并 不 破坏 第 一 次 下 降 的 成 果 ， 


正好 经 过 全 局 误差 极 小 值 点 w* 一 (1%) 
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i 
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由 以 上 可 知 ,我 们 不 采用 传统 的 直线 搜索 法 ,而 采用 微分 运算 来 寻找 沿 此 第 二 个 下 降 方向 的 误 


差 极 小 值 : 


1 z [iw + sAw(1)]'H [w(1) + sAw(1)]] = 


g(a E E (or) [Give +o) |] =2 
解 出 s= 2. 23。 这 使 得 下 一 个 极 小 值 为 


一 6.202 2.788 0 


的 确 , 共 轿 梯 度 搜 索 法 通过 两 步 搜 索 一 一 正好 与 空间 维 数 相等 一 一 找到 了 该 二 次 误差 函数 的 
全 局 极 小 值 。 


“6.10 其 他 网 络 和 训练 算法 


现在 我 们 考虑 在 某 些 特殊 问题 中 其 他 一 些 可 供 选 择 的 比较 有 效 的 网 络 和 训练 法 。 
6.10.1 ZORANA 

RDE ATHE T — A A ee KRAE K ER RO KH BEM SKE, 例如 
Parzen 窗 。 根 据 我 们 对 梯度 下 降 算 法 (尤其 是 反 向 传播 算法 ) 的 讨论 ,现在 考虑 训练 这 些 网 络 
的 其 他 方法 。 具 有 线性 输出 单元 的 “ 径 向 基 哨 数 ”(radial basis function,RBF) 网 络 实现 函数 运 
算 


nH 
z(x) = 》 wey; (Xx) (58) 
j=0 


其 中 包含 一 个 ;二 0 的 偏 置 单元 。 如 果 我 们 定义 一 个 向 量 @®@, 它 的 元 素 为 隐 单 元 的 输出 ,以 及 
一 个 矩阵 W, 它 的 元 素 为 隐 售 层 到 输出 层 权 值 ,那么 式 (58) 可 写 为 z(x) 二 W®@。 最 小 化 准则 也 
数 


l Z m. mi2 
J(w) = 3D Ives ; w) — t”] (59) 


形式 上 等 价 于 第 5 章 中 的 线性 问题 。 以 工 来 表示 由 目标 癌 量 组 成 的 矩阵 ,以 来 表示 其 列 癌 
BW 中 的 矩阵 ,那么 权 值 的 解 满足 
pb' dW = b'T (60) 
该 解 可 直接 写 为 :W':=@ T。@ 是 四 的 广义 闭 和 矩阵 。 这 种 具有 线性 输出 单元 的 径 向 基 函 数 或 
RBF 网 络 的 一 个 好 处 是 其 求解 仅 需 要 利用 标准 的 线性 技术 。 然 而 ,对 大 矩阵 进行 求 逆 的 计算 
量 会 很 大 ,因此 上 面 的 方法 通常 限制 在 中 等 大 小 的 问题 中 使 用 。 
如 果 输 出 单元 也 具有 非 线 性 , 即 如 果 网 络 执行 


nH 
zkGo = f È meo) (61) 
j=0 


而 不 是 式 (58) ,那么 可 使 用 标准 反 向 传播 法 来 训练 ,只 需 对 局 部 激活 函数 求 导 即 可 。 对 于 分 类 
问题 ,一 般 对 于 输出 单元 采用 sigmoid 以 保证 输出 值 限定 在 一 个 固定 范围 内 。 而 对 了 单元 (由 
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于 没有 采用 sigmoid), sigmoid 激活 函数 所 提供 的 计算 简便 性 并 未 实现 ,但 它 并 不 引起 概念 上 
的 困难 (习题 38). 
6.10.2 ‘SFR AY Æ A BY 
有 时 候 我 们 可 能 有 关于 某 种 类 别 分 布 形 式 的 特定 信息 ,那么 使 用 相应 的 特殊 隐 单 元 激活 
RAGA eM. XH ,只 需要 学 习 较 少 的 参数 就 可 以 拟 合 给 定 的 数据 。 这 就 是 通过 增加 模 
型 的 偏 置 ,从 而 降低 拟 合 的 方差 (variance) 的 一 个 例子 ,我 们 将 在 第 9 章 中 再 次 讨论 这 个 十 分 
关键 的 问题 。 比 如 ,如 有 果 我 们 知道 每 一 分 布 源 自 于 两 个 高 斯 混合 密度 ,那么 ,自然 会 利用 高 斯 
激活 函数 ,并 使 用 某 个 学 习 规 则 来 设置 参数 ,如 均值 和 协 方差 矩阵 元 素 。 这 与 第 3 章 介 绍 的 与 
模型 有 关 的 最 大 似 然 技术 很 接近 。 
6.10.3 匹配 滤波 器 
在 第 2 章 中 ,我 们 是 在 整个 概率 结构 已 知 的 理想 条 件 下 来 考虑 分 类 器 的 设计 问题 的 。 现 在 
来 考虑 如 何 对 某 个 特定 的 已 知 模式 设计 一 个 最 优 检测 器 。 这 将 引出 匹配 滤波 器 (matched filter) 
的 概念 。 尽 管 一 种 模式 的 最 优 检测 器 必须 “匹配 ?该 模式 是 不 容 置疑 的 (用 某 种 方法 使 之 变 得 更 
清晰 ) ,但 是 我 们 这 里 的 讨论 将 给 出 为 什么 会 这 样 的 更 深层 的 理解 。 匹 配 滤波 器 出 现在 各 种 检测 
问题 中 ,尤其 是 那些 时 变 信号 中 。 尽 管 该 滤波 髓 不 是 神经 网 络 ,但 它们 与 我 们 将 在 6. 10. 4 节 中 
讨论 的 卷 积 神经 网 络 有 着 密切 的 联系 。 并 且 , 传 统 三 层 网 络 的 一 个 隐 单 元 的 最 大 响应 恰好 发 生 
在 输入 模式 “匹配 ”到 输入 层 到 隐 单 元 的 权 值 所 表达 的 那个 模式 上 (6. 5. 1 节 )。 
考虑 利用 线性 检测 器 来 检测 一 个 连续 信和 号 x(2) 的 问题 。 通 过 它 的 脉冲 响应 h(1) ,或 者 最 
好 是 用 它 的 道 序 脉冲 响应 wl?) 二 (来 描述 该 检测 器 。 线 性 检测 器 对 于 任意 输入 (A E 
+00 
z(T) = | xowe-7) dt (62) 
25 it PT aS AAT ae 
WIit—F Be OE ho as a BOY at A HB AE Be HT x 的 系统 响应 函数 ;将 未 知 的 滤波 
遇 数 记 为 多 (it) 。 显 然 如 果 选 取 较 大 的 w(t) ,输出 也 可 以 任意 大 。 但 这 对 我 们 没有 任何 意义 ， 
我 们 所 感 兴趣 的 是 w(z) 的 形状 。 因 此 加 一 个 限定 
+00 
J eo dt = const (63) 
该 限定 有 时 被 称 为 滤波 器 的 能 量 , 类 似 于 一 个 物理 信号 (如 声波 或 光波 ) 的 总 能 量 。 
于 是 ,优化 问题 就 是 找 出 在 式 (63) 的 约束 下 使 式 (62) 的 输出 达到 最 大 值 的 响应 国 数 。 由 
于 我 们 的 目的 是 要 寻找 泛 沙 极 值 ,所 以 这 里 引入 变 分 法 的 计算 。 明 确 地 说 ,我 们 将 式 (63) 求 变 
分 ,其 中 加 上 了 一 项 式 (62) 与 待定 乘 子 4 的 乘积 ,并 令 其 值 为 0。 不 失 一 般 性 ,我 们 可 随意 地 
设置 偏 移 , 于 是 令 T = 0, 从 而 得 出 


+00 
ôz (0) = ô (j [w*(t) + Ax(t)w(t)] “| =0 (64) 


OO 
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+00 
| (2w(t)dw(t) + Ax(t)dw(t)] dt = 0 (65) 
| 
-00 0 代表 极 值 
由 于 式 (65) 对 于 所 有 的 9 vb 都 成 立 , 所 以 被 积 式 必 须 为 0, 从 而 得 出 最 优 解 : 最 优 滤波 器 响 
应 为 


bi) = x) (66) 


简 言 之 ,最 优 检测 器 具有 与 目标 信号 成 比例 的 逆序 脉冲 响应 (图 6-23)。 总 的 幅度 由 能 量 
常数 决定 ,并 由 4 表示 ;很 容易 证 明 4 是 负数 。 最 后 必须 指出 ,原则 上 说 ,以 上 的 技术 性 的 求 导 
运算 仅仅 说 明 我 们 可 能 获得 某 个 极 值 ; 然 而 ,也 可 以 证 明 此 解 确实 给 出 了 极 大 值 ( 习 题 36) 。 


6-23 左 列 显示 了 x(t) x0 


信号 z(D, 它 下 面 是 一 

任意 的 响应 函数 we (2), i | 
Er i an 

函数 的 滤波 器 响应 ,如 

式 (62) 所 给 出 。 右 列 显 《一 一 i 


4 -3 -2 -| l 4 
示 了 输入 和 响应 函数 相 yo 
“匹配 ”时 的 情形 。 两 个 
响应 函数 ww (2) Aw" (2) 
具有 相等 的 能 量 。 特 别 
注意 这 种 情况 下 ,底部 
的 最 大 输出 比 左边 非 匹 
配 情况 下 的 大 





6.10.4 卷 积 网 络 

我 们 可 将 先 验 知识 结合 到 网 络 结构 中 去 。 比 如 ,如 果 要 求 我 们 的 分 类 器 对 于 模式 的 变换 
不 敏感 ,我 们 可 以 在 所 有 的 变换 中 有 效 地 复制 该 识别 器 。 该 方法 可 用 于 “时 延 神经 网 络 ”(time 
delay neural network, TDNN). 

图 6-24 显示 了 一 个 典型 的 TDNN 结构 ;该 网 络 结构 由 输入 层 、 隐 含 层 和 输出 层 组 成 ,这 
都 是 我 们 以 前 见 过 的 。 但 是 有 一 个 关键 性 的 不 同 之 处 , 即 每 一 隐 单 元 只 从 输入 层 的 某 一 局 限 
的 空间 范围 内 接收 输入 。 位 于 “延迟 ”处 的 隐 单 元 (如 移 位 到 右边 ) 从 具有 类 似 移 位 的 输入 层 接 
收 输入 。 训 练 过 程 同 标准 反 向 传播 中 的 一 样 , 但 是 增加 的 约束 为 对 应 权 值 ( 即 移 到 右边 或 左 
边 ) 必 须 具 有 相等 的 值 , 也 即 “ 权 值 共 享 ” 的 一 个 例子 。 这 样 , 只 要 整个 模式 位 于 输入 层 的 领域 
中 ,学 习 后 的 权 值 并 不 依赖 于 训练 模式 的 位 置 。 

识别 过 程 中 的 网 络 前 馈 运 算 同 标准 三 层 网 络 一 样 ,但 由 于 权 值 共享 ,最 终 的 输出 并 不 依赖 
于 输入 模式 的 具体 位 置 。 该 网 络 通 过 这 样 的 一 个 事实 而 得 名 , 即 它 是 为 语音 识别 或 其 他 时 间 
序列 信和 号 的 识别 而 发 展 起 来 的 ,并 且 得 到 了 成 功 的 应 用 。 这 种 权 值 共享 技术 可 以 推广 到 正 交 
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的 空间 (而 非 时 间 ) 变 换 中 ,并 可 以 用 于 某 种 光学 字符 识别 系统 中 ,其 中 ,输入 图 像 在 输入 空间 
中 的 位 置 事先 不 知道 。 


图 624 一 个 时 延 神经 网 络 
(TDNN) 利 用 权 值 共享 来 保证 
了 对 沿 一 维 的 移动 也 可 以 将 模 
式 识 别 出 来 ;实际 上 ,这 一 维 通 
常 与 时 间 轴 相对 应 。 从 而 所 有 
用 红色 显示 的 权 值 都 赋 为 相等 
的 值 。 在 此 例 中 ,每 一 时 刻 有 5 
个 输入 单元 。 由 于 我 们 假设 输 
人 模式 在 持续 时 间 内 有 4 个 以 
下 的 时 刻 ,每 一 隐 单 元 在 一 给 
定 的 时 刻 中 接收 从 4 x 5 = 20 
个 输入 单元 来 的 输入 ,如 图 中 
灰色 区 域 所 示 。 类 似 的 平移 约 
束 也 可 以 加 在 隐 含 层 到 输出 层 
的 各 单元 间 
6.10.5 递归 网 络 
到 现在 为 止 ,我 们 仅 讨 论 在 分 类 过 程 中 使 用 前 馈 信 息 流 的 网 络 ; 惟 一 的 反馈 流 就 是 在 训练 
过 程 中 的 误差 信号 。 现 在 我 们 转向 反馈 或 “递归 网 络 ”(recurrent network) 。 通 常 的 情况 是 ， 
这 些 网 络 在 时 间 序 列 预 测 中 的 用 途 很 大 ,但 我 们 在 这 里 仅 考 虑 一 种 特殊 类 型 的 递归 网 络 , 它 已 
在 静态 分 类 任务 中 有 成 功 的 应 用 。 
图 6-25 说 明 这 样 的 递归 结构 。 其 中 的 一 个 ,输出 单元 的 值 被 反馈 回来 作为 辅助 输入 , 增 广 
了 普通 的 模式 特征 。 在 分 类 过 程 中 ,一 个 静态 模式 x 被 送 人 输入 单元 ,并 计算 前 馈 流 , 然 后 将 其 
(6-25 在 静态 分 类 中 用 途 <«  * g 
很 大 的 递归 网 络 的 形式 如 底 © OOO 


















































图 所 示 的 结构 ,具有 红色 的 。 yo) á @ 四 
递归 连接 。 它 在 功能 上 等 价 一 一 而 SSS SSS -一 - 
于 具有 很 多 隐 含 层 和 扩展 的 © @ OO | | | | 
权 值 共 享 的 静态 网 络 , 如 项 2 OO | | | 
图 所 示 有 
0 网 由 四 T | | | | 
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输出 反馈 回来 作为 辅助 输入 。 接 着 ,这 将 引起 另外 一 些 隐 单元 激活 ,然后 产生 新 的 输出 激活 ， 
等 等 。 最 后 ,激活 稳定 下 来 ,最 终 的 输出 值 可 用 来 分 类 。 这 样 ,如 果 该 递归 结构 按照 时 间 “ 展 
开 ”, 那 么 它 就 等 价 于 图 中 顶部 所 示 的 静态 网 络 , 必 须 理解 的 是 许多 的 权 值 被 约束 为 相等 的 值 。 
递归 网 络 在 学 习 上 共有 相当 短 的 时 间 结 构 的 时 序 相关 信号 时 被 证 明 是 有 效 的 。 但 当 应 用 于 
其 结构 保持 较 长 时 间 的 问题 时 ,该 网 络 并 不 是 很 成 功 ,这 是 因为 在 训练 过 程 中 ,误差 信号 多 次 
经 过 各 层 反 馈 回 来 后 被 “稀释 ”了 。 
6.10.6 级 联 相 关 
利用 级 联 相 关 (cascade-correlation) 技术 来 训练 网 络 的 中 心思 想 十 分 简单 。 我 们 从 一 个 
两 层 网 络 开 始 , 训 练 直到 到 达 一 个 LMS 误差 最 小 值 。 如 果 所 得 的 训练 误差 足 够 小 ,训练 就 停 
止 。 但 一 般 的 情况 下 ,误差 并 不 足够 小 。 于 是 我 们 固定 权 值 而 增加 一 个 隐 单 元 ,与 输入 层 和 输 
出 层 单 元 完全 互 连 。 那 么 这 些 新 增加 的 权 值 将 再 次 利用 LMS 准则 被 训练 。 如 果 所 得 误差 还 
不 够 低 , 那 么 男 一 个 隐 单 元 将 被 加 入 ,同样 与 输入 和 输出 层 完全 互 连 。 并 且 , 每 一 个 先前 的 隐 
单元 的 输出 被 乘 上 一 个 固定 的 一 1, 并 输入 到 所 有 的 新 增 的 隐 单 元 ;这 将 防止 新 的 隐 单 元 具有 
已 经 被 先前 的 隐 单 元 所 表示 出 的 学 习 能 力 。 这 个 新 权 值 再 次 通过 一 个 LMS 准则 进行 训练 。 
从 而 训练 通过 增加 新 的 可 修正 权 值得 以 继续 进行 ,这 样 (如 果 需 要 的 话 ) 就 再 增加 一 个 新 的 隐 
单元 ,训练 新 的 可 修正 的 权 值 ,等 等 。 于 是 该 网 络 就 逐渐 的 “长 大 ”, 直 到 “长 ”到 手头 问题 的 复 
森 度 所 决定 的 规模 为 止 ( 图 6-26)。 级 联 相关 的 好 处 是 它 通常 比 传 统 的 反 向 传播 要 快 ,这 是 因 
为 每 次 只 需要 更 新 较 少 的 权 值 。 
图 6-26 ”通过 级 联 相 关 的 一 个 多 层 网 络 
训练 从 输入 层 完 全 同 输出 层 ( 黑 色 ) 互 连 开 
始 。 这 种 权 值 ,wi ,利用 一 个 LMS 准则 完 
全 训练 , 同 第 5 章 所 讨论 的 一 样 。 如 果 所 
得 的 训练 误差 并 不 足够 低 ,第 一 个 隐 单 元 
(红色 标记 1) 被 引 和 人 ,与 输入 层 和 输出 层 完 
全 连接 。 这 些 新 的 红色 权 值 被 完全 训练 ， 
而 先前 的 (黑色 ) 权 值 保持 固定 。 如 果 所 得 
训练 误差 仍然 不 足够 小 ,第 二 个 隐 单 元 ( 标 
记 2) 被 类 似 引 和 ,完全 互 连 接 ; 它 还 接收 先 
前 每 一 个 隐 单 元 的 乘 上 一 1 的 输出 。 通 过 
这 种 方式 继续 训练 接 下 来 的 隐 单 元 ,直到 
训练 误差 低 到 可 以 被 接受 的 程度 


























算法 4 (级 联 相关 ) 
1 begin initialize a, 准则 0,7, k0 
do m<-m-—+ 1 
Wi Uri — 9 VJ Cw) 
until || V Jw) || <8 
if J(w)>4@ then 加 隐 单 元 else exit 


ND 


oi Ae Ww 
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6 do m<-m-+ 1 

7 Wiwi —9 VI Cw) sw wi IV Cw) 
8 until || Y Jw) || <0 

9 return w 

10 end 





6.11 正则 化 .复杂 度 调节 和 剪 梳 


尽管 三 层 网 络 的 输入 节点 和 输出 节点 数 都 取决 于 具体 问题 本 身 , 但 是 我 们 并 不 能 提前 知 

道 隐 单元 数 或 权 值 数 。 如 果 有 权 值 太 多 ,会 因为 有 太 多 自由 上 度 而 使 得 训练 时 间 太 长 ,并 且 有 过 
拟 合 的 危险 。 如 果 权 值 数 过 少 , 训 练 集 又 不 够 学 习 。 

正则 化 (regularization) 技 术 的 一 个 第 用 作法 是 构造 一 个 新 的 准则 函数 ,该 孙 数 不 仅 取决 

于 典型 的 训练 误差 ,还 取决 于 分 类 器 的 复杂 程度 。 更 确切 的 说 ,新 的 准则 函数 对 高 度 复杂 的 模 

型 进行 惩 强 ;在 该 准则 下 寻找 极 小 值 的 过 程 也 就 是 将 训练 集 上 的 误差 与 复杂 度 进 行 折 中 和 平 

衡 的 过 程 。 形 式 上 ,可 将 新 误差 写成 原来 训练 集 上 的 误差 再 加 上 一 个 正则 项 ,该 项 表示 对 解 的 

约束 或 期 望 的 属性 : 
J = Spar + ÀJreg (67) 


参数 4 KIRE T ETE A RS EE. AUEREA G. 8. 11 节 ) 可 用 于 这 种 形 
式 , 其 中 当权 值 将 较 大 时 ,Je 的 值 也 较 大 。 

另 一 种 方法 是 消除 (elimination ) 或 前 枝 (pruning) 掉 不 必要 的 权 值 。 尽 管 很 自然 地 会 想 
到 ,训练 之 后 ,应 该 是 那些 幅 值 最 小 的 权 值 才 能 被 去 掉 。 这 种 基于 幅 值 的 剪 枝 法 也 还 行 得 通 ， 
尽管 可 以 证 明 它 不 是 最 优 的 ,因为 有 时 ,小 幅 值 的 权 值 对 于 训练 数据 的 学 习 也 是 非常 关键 的 。 

Wald 统计 法 的 基本 思想 是 ;我 们 可 以 估计 出 模型 中 的 某 个 参数 的 重要 性 ,然后 就 可 以 消 
除 最 不 重要 的 参数 。 比 如 在 网 络 中 ,这 样 的 参数 可 以 是 某 个 权 值 。 最 佳 脑 损 伤 (optimal brain 
damage,OBD) 算 法 和 它 的 派生 算法 最 佳 脑 外 科 (optimal brain surgeon,OBS), 利 用 二 阶 近 似 
来 预测 训练 误差 对 于 某 个 特定 权 值 的 依赖 程度 ,并 且 消 除 ( 剪 枝 掉 ) 那 些 权 值 , 如 果 消 除 它 们 能 
导致 的 训练 误差 的 增加 量 最 小 ， 

OBD 和 OBS 的 基本 方法 是 相同 的 ,即将 网 络 训练 到 权 值 w” 处 达到 误差 的 局 部 极 小 值 ， 
于 是 剪 枝 掉 将 导致 训练 误差 增 量 最 小 的 那个 权 值 。 对 于 整个 权 值 天 量 的 某 个 变化 ðw, 预计 的 
误差 函数 的 增 量 为 


aJ \' 1. , os 3 
一 | 一 ). 一 .一 ~ . 5 
6J (= ) ow +5 dw Dwi ôw + O(dwil) (68) 
Srema, a peg = 
人 0 = 


其 中 是 赫 森 和 矩阵。 第 一 项 可 以 去 掉 , 这 是 因为 我 们 目前 正 处 于 一 个 局 部 误差 极 小 值 处 ; 忽 
略 三 阶 以 及 更 高 阶 项 。 在 假定 只 去 掉 一 个 权 值 的 限定 下 ,最 小 化 该 函数 的 一 般 解 为 ( 习 
题 44), 


2 
Wa -1 ] Wo 


[H- ]。， e Ro u= 2 [H] 


这 里 ,u 是 权 值 空间 中 沿 着 第 g 个 方 疝 的 单位 同 量 ,Lo 是 权 值 g 的 “显著 性 "(saliency) 的 一 个 
近似 ,也 即 ,如果 权 值 g 被 剪 枝 并 且 其 他 权 值 通过 式 (69) 左 边 那个 方程 进行 更 新 时 所 引 超 的 训 


(69) 





ôW = — 
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练 误差 的 增 量 ( 习 题 45) 。 

在 式 (45) 里 ,我 们 学 习 了 计算 赫 森 矩阵 的 外 积 近 似 法 。 注 意 到 式 (69) 需 要 用 到 WO E 
阵 。 求 逆 的 一 种 方法 是 先 从 一 个 较 小 的 值 开始 ,H = 二 a 1, 其 中 a 是 一 个 小 参数 ,可 以 等 效 为 
一 个 权 值 衰减 常数 (习题 43) 。 接 下 来 我 们 依照 公式 


一 1 T —| 
Ho = Ho! o H, X m1 Xna Hy 
m+] ~ im n XT —] 
es i H, > T 


d m+l 


EARRA E EE, AP FSRR M an 随 m 的 增 大 而 减 小 。 当 整个 训练 集 被 提 
供 之 后 AREER h HOT =H! 给 出 。 图 6-28 说 明基 于 OBD、OBS 以 及 网 络 中 某 权 值 
es FE HI BY RR 


(6-27 ” 某 参 数 ( 如 权 值 ) 的 “显著 性 ", 是 指 当 该 Jw) 
权 值 置 为 0 时 所 引起 的 训练 误差 的 增 量 。 可 通过 
实际 误差 在 一 个 局 部 极 小 值 w ”附近 展开 ,并 将 权 
值 置 为 0 来 近似 估计 “显著 性 ”。 此 例 中 ,近似 的 显 
著 性 比 实际 显著 性 小 ;这 是 一 般 的 情况 ,但 并 非 总 
是 如 此 


(70) 





图 6-28 KARA TEAR BRK — 
次 误差 曲面 J (Ow) w 处 的 全 局 极 小 
值 。 在 准则 路 数 的 二 阶 近 似 中 ,OBD KR 
设 赫 森 矩阵 是 对 角 化 的 ,而 OBS 法 采用 完 
H AS dob OR FE 





以 算法 的 形式 来 说 明 OBS 法 为 : 
算法 5 {OBS 法 ) 


1 begin initialize 74 »w,0 

2 训练 一 个 适当 大 的 网 络 达到 最 小 误差 

3 do 根据 式 (70) 计 算 A 

4 q* <-arg minuww/(2LH!'j]js) (显著 性 上 ,) 
和 

i: ae 





5 w+w H~'e,. 
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6 until J (w) >0 
7 return w 
S end 


男 外 一 个 算法 ,OBD 法 ,在 计算 上 相对 简单 一 些 , 这 是 因为 第 3 行 的 赫 和 森 和 矩阵 的 逆 矩 阵 的 
计算 对 于 对 和 角 阵 来 说 是 比较 简单 的 。 当 误差 大 于 预先 设 定 为 0 的 某 个 准则 时 ,以 上 算法 将 停 
止 。 另 一 种 作法 是 将 第 6 行 变 为 : 当 由 于 消除 某 个 权 值 而 引起 的 J OW RICK TT AE 
时 ,算法 将 停止 。 


本 章 小 结 


多 层 非 线性 神经 网 络 一 一 具有 可 变 权 值 的 两 层 或 多 层 网 络 一 一 通过 梯度 下 降 法 ,如 反 疝 
传播 法 ,来 进行 训练 ,以 实现 由 网 络 拓扑 所 定义 的 模型 中 权 值 的 最 大 似 然 估计 。 要 有 足够 多 的 
隐 单 元 ,其 中 的 非 线性 激活 图 数 Fnet) 人 允许 此 网 络 实现 任意 的 判别 边界 。 

利用 该 网 络 中 进行 学 习 的 一 个 最 大 的 好 处 是 学 习 算 法 的 简便 性 .模型 选择 的 简易 性 以 及 
容易 租 人 各 种 启发 式 信息 和 约束 条 件 。 这 些 启发 式 包括 权 值 衰减 ( 它 秆 罚 大 的 权 值 , 从 而 有 效 
的 简化 分 类 器 ) 以 及 通过 线索 进行 学 习 ( 让 网 络 执行 一 个 附属 的 (相关 的 ) 学 习 任 务 )。 非 线性 
PATA PH f(net) 的 参数 、 模 式 的 预 处 理 、 目 标 值 以 及 权 值 初始 化 都 可 以 通过 统计 学 原理 求 出 ， 
并 保证 快速 和 均衡 学 习 。3 个 基本 学 习 协 议 是 随机 学 习 .成 批 学 习 和 在 线 学 习 。 离 散 剪 枝 算 
法 如 OBS 和 OBD 对 应 于 “优先 选择 具有 和 较 少 的 权 值 ”的 先 验 知识 ,可 以 避免 过 拟 合 。 


其 他 一 些 网 络 和 训练 算法 也 有 各 自 的 优势 。 比 如 , 当 数 据 呈 现 聚 类 结构 时 , 径 向 基 范 数 用 


途 最 大 。 级 联 相关 网 络 的 训练 通常 要 比 反 向 传播 算法 快 。 
文献 和 历史 评述 


现在 人 们 认为 关于 神经 网 络 的 最 早 的 讨论 之 一 , 源 自 于 现代 计算 机 科学 的 先驱 者 阿 
兰 ，。， 图 灵 (Alan Turing) ,他 在 1948 年 的 一 篇 论文 中 描述 了 “B 型 非 组 织 机 器 ”, 它 由 与 非 门 网 
络 所 组 成 [79]。( 这 篇 大 有 前 途 的 著作 被 图 灵 所 在 的 实验 室 领导 人 Charles Darwin 先生 一 一 
也 就 是 英国 大 生物 学 家 和 博物 学 家 的 孙子 一 一 看 作 是 “学 生 论文 ?而 一 笑 置 之 .)MecCulloch 和 
Pitts 首先 提出 了 描述 简单 神经 元 网 络 行为 的 基本 的 算术 和 逻辑 方法 L51j。 这 篇 早期 著作 提 
出 了 非 递 归 和 有 递归 网 络 (他 们 采用 了 所 谓 “ 循 环 ”(circle) 的 术语 ) ,但 并 不 是 关于 学 习 。 它 对 神 
经 元 的 “全 或 无 ”或 者 某 个 靖 值 函数 的 集中 讨论 ,间接 推 返 了 人 们 对 后 来 将 占领 这 个 领域 的 具 
有 连续 值 的 神经 元 的 讨论 。 这些 作者 后 来 写 了 一 篇 极其 重要 的 关于 神经 系统 中 特征 映射 、 不 
变性 以 及 学 习 的 论文 ,从 而 使 模式 识别 的 概念 发 展 有 了 大 飞跃 L58j。 

Rosenblatt 的 关于 (两 层 ) 感 知 的 著作 (第 5 章 )[L64,65j] 可 以 说 是 最 早 从 事 学 习 并 有 旦 第 一 
个 包含 有 关 收 人 钱 性 的 证 明 的 文章 。 大 量 的 随机 方法 ,包括 著名 的 “ 群 鬼 堂 ” 算 法 (Pandemoni- 
um)°[L69,70j], 都 被 提出 来 训练 具有 几 个 层次 或 处 理 器 的 网 络 , 它 保持 了 阅 值 蚂 数 的 主导 地 
位 ,这 些 处 理 器 一 般 都 只 有 逻辑 运算 功能 (与 ?或 者 “或 ”) ,而 非 后 来 在 神经 网 络 中 较 受 欢迎 的 
连续 阻 数 。 执 行 线性 判别 的 网 络 一 一 线性 机 一 一 的 局 限 性 在 20 世纪 50 年 代 和 60 年 代 众 所 
周知 ,并 且 被 它 的 提 仙 者 L65] 和 反对 者 L53j 都 讨论 过 。 





O ” 译 者 注 : 一 种 认 知 心理 学 和 模式 识别 模型 。 假 设 有 许多 小 上 鬼 , 每 个 都 专门 负责 识别 某 个 特定 类 别 ( 或 某 个 局 部 特 
TE) ,一旦 发 现 有 匹配 ,就 大 声 叫 起 来 。 匹 配 得 越 好 ,就 叫 得 越 响 。 最 终 哪 个 叫 得 最 响 , 就 判定 为 哪个 类 别 ( 或 特 
征 )。 
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一 个 早期 流行 的 方法 是 手工 设计 三 层 网 络 , 该 网 络 具 有 固定 的 输入 层 到 隐 含 层 权 值 , 然 后 
通过 训练 来 学 习 隐 含 层 到 输出 层 的 权 值 ,参考 186j。 多 层 神 经 网 络 学 习 算 法 中 的 许多 困难 ,来 
自 于 线性 靖 值 单元 的 广泛 使 用 。 由 于 在 整个 范围 内 没有 可 用 的 导数 ,所 以 运用 求 导 法 则 的 方 
法 及 所 谓 的 “误差 反 向 传播 ”, 并 未 获得 更 多 的 早期 拥护 者 。 

反问 传播 算法 的 发 展 是 逐步 的 , 它 分 了 几 步 ,而 不 是 一 提出 便 被 全 部 接受 。 最 早 运 用 的 自 
适应 算法 来 自 于 控制 领域 , 它 最 终 发 展 为 反 向 传播 算法 L6j。 来 目 电气 工程 中 的 Kalman 滤波 
妖 , 利 用 用 模拟 误差 (预测 输出 和 测量 输出 的 差 值 ) 来 调整 预测 妖 中 参数 ,可 参考 |L30] 和 |L39j。 
Bryson, Denham 和 Dreyfus 介绍 了 拉 格 朗 日 (Lagrange) 法 如 何 用 于 训练 多 层 网 络 来 进行 控 
制 ,可 参考 [7]。 我 们 在 L87,88j] 的 最 后 一 章 中 看 到 Widow. Hoff 和 其 同事 们 ,将 模拟 信号 及 
LMS 准则 用 于 两 屋 网 络 的 模式 识别 中 。WerbosL83,84] 也 讨论 了 一 种 计算 某 个 函数 导数 的 
方法 , 它 基 于 一 个 样本 点 的 集合 。 如 果 解 释 得 细致 一 些 , 它 已 含有 反 向 传播 算法 的 关键 思想 。 
Parker 的 早期 的 独立 发 展 起 来 的 “学 习 人 逻辑 ”(learning logic)[55,56j] 指 出 ;线性 单元 层 如 何 可 
利用 足够 多 的 “输入 -输出 对 ?来 学 习 。 可 异 的 是 ,这 篇 著作 由 于 缺少 对 有 代表 性 (或 有 挑战 性 ) 
问题 的 仿真 ,以 及 缺少 相关 领域 的 专业 术语 ,因此 未 受到 充分 重视 。Le Cun 独自 开发 了 一 个 
三 层 网 络 的 学 习 算 法 [10 ,但 用 了 法 语 来 发 表 ] , 它 传播 的 是 目标 信号 , 而 不 是 导数 信号 ;所 得 的 
学 习 算 法 等 价 于 稍 后 将 指出 的 标准 反 向 传播 算法 L11j。 

& TF $e fa], Rumelhart, Hinton 和 Williams 的 论文 L67j, 后 来 被 扩展 成 一 个 完整 的 、 可 读 
性 强 的 L68j] 中 的 一 章 , 使 得 反 向 传播 算法 引起 了 广大 读者 的 注意 。 显 然 这 些 作者 非常 欣赏 该 
方法 的 应 用 能 力 ,在 关键 性 的 任务 (如 XOR) 中 闻 述 它 , 并 将 其 应 用 于 更 一 般 的 模式 识别 。 大 
量 的 有 关 应 用 的 论文 和 书籍 一 一 语音 感知 .光学 字符 识别 .数据 控 据 、 人 金融. 游戏 以 及 更 
多 一 一 层出不穷 。 反 问 传 播 算法 的 历史 概况 可 参考 [84 ;两 篇 关于 神经 处 理 的 发 展 史 的 主要 
论文 ,包括 模式 识别 中 的 许多 问题 ,可 参考 [2] 和 [3j]。 一 个 新 型 的 网 络 推 广 包 含有 产生 新 模式 
的 研究 L22 ,23j]。 | 

关于 神经 网 络 的 较 基础 的 论文 可 在 L37] 和 LL48j 中 查 到 ,还 有 一 些 优秀 教科 书 , 它 们 与 现今 
著作 的 不 同 在 于 它们 对 神经 网 络 的 重视 胜 过 其 他 模式 识别 技术 ,尤其 是 [4,29,31,61j] 和 
L63j]。 网 络 在 数学 方面 的 一 些 扩 展 研 究 , 其 大 部 分 已 超出 了 我 们 用 网 络 进行 模式 分 类 的 要 求 ， 
感 兴趣 的 读者 可 以 参考 [21]。 网 络 与 标准 的 统计 方法 之 间 的 密切 联系 还 在 继续 研究 中 ， 
White 拟 出 一 份 纲 要 [85j 以 及 一 些 书 籍 ( 如 参考 文献 L9j] 和 [71j) ,探索 了 它们 之 间 大 量 的 内 在 
联系 。 多 层 感 知 器 与 贝 叶 斯 方法 及 概率 估计 的 重要 关系 可 在 参考 文献 [5,14,25,45,54,62] 和 
[66 | 中 查 到 。 原 始 的 关于 投影 寻 踪 和 MARS 的 论文 可 分 别 参 考 [16j 和 [35] ,以 及 [63] 中 的 一 
份 优秀 的 综述 。 

反问 传播 算法 广泛 普及 不 久 , 又 被 批评 为 缺乏 生物 学 上 的 真实 性 ;特别 是 Grossberg 
[24j, 他 讨论 了 这 种 算法 的 非 局 部 特性 一 一 即 突 触 权 值 不 是 通过 物理 方式 传输 的 。 不 久 ， 
Stork 发 明了 一 种 局 部 实现 的 反 疝 传播 法 L47,75], 并 且 指 出 尽管 如 此 , 它 仍 然 是 一 种 无 法 被 
生物 学 接受 的 模型 。 

艾 尔 莫 戈 罗 夫 定理 与 神经 网 络 间 的 关系 的 争论 一 一 例如 文献 L13,20,34,38,41,42] 和 
L44j 已 集中 到 它们 的 表达 能 力 上 。 三 层 网 络 的 普遍 表达 能 力 的 证 明 是 以 波 包 和 健 里 叶 思 
想 为 基础 的 ,参考 L32]。 具 有 非常 规 的 激活 函数 的 网 络 的 表达 能 力 已 在 文献 L76j,[L77j] 及 其 他 
文献 中 提出 。 三 层 网 络 可 获得 准则 了 薄 数 的 局 部 极 小 值 的 事实 在 文献 L52j] 中 提出 , 且 一 些 误差 
曲面 的 属性 在 文献 L36j 中 已 作 了 说 明 。 

赫 森 矩阵 的 外 积 近 似 与 二 阶 技术 的 深入 分 析 可 在 文献 [26,46,50] 和 [60j 中 查 到 。 级 联 相 
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关 法 训练 的 三 层 网 络 ,与 通过 反 向 传播 法 训练 的 标准 三 层 网 络 比较 ,具有 较 好 的 执行 效果 


[15]. 


虽然 在 Fukushima 的 新 认 知 机 (neocognitron)[17,18] 中 所 述 的 学 习 理 论 并 没有 什么 


新 东西 ,但 是 它 使 用 多 层 人 工 调 节 的 特征 检测 器 和 分 组 学 习 的 混合 展示 了 网 络 是 如 何 表达 平 
移 .旋转 及 斥 度 不 变性 的 。 匹 配 滤波 器 法 的 提出 早 于 神经 网 络 ;Stork 和 Levinson 用 匹配 滤波 
句 来 探索 人 类 视觉 响应 隔 数 ,参考 [74] 和 [78j]。 

一 个 权 值 衰减 的 简单 方法 在 文献 L33j 中 做 了 介绍 ,并 且 由 于 Weigend 和 其 他 人 [82j] 的 努 
力 而 获得 了 更 大 的 认可 。 线 索 法 在 文献 L1j 中 做 了 介绍 。 在 “Wald 检验 ”[L80,81j 用 于 传统 统 
计 研 究 L72j 的 同时 , 它 在 多 层 网 络 前 枝 中 的 应 用 开始 于 Le Cun 等 人 提出 的 OBD 法 ,后 来 又 
扩展 到 非 对 角 化 的 替 森 矩阵 [28 ,26 ,27], 包 括 一 些 加 速 方法 L73]。 关 于 二 阶 导数 计算 方法 在 
网 络 中 的 应 用 的 展开 讨论 可 参考 [8], 剪 枝 算法 的 经 典 讨论 可 参考 [60]。 


6. 


| 


DS 


6. 
3. 
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. 证 明 如 采 隐 单元 的 激活 函数 是 线性 的 ,那么 三 层 网 络 等 价 于 二 层 网 络 。 利 用 该 结论 解 
释 为 什么 具有 线性 隐 单 元 的 三 层 网 络 不 能 解决 某 个 非 线性 可 分 问题 ,如 KOR 问题 或 d 
比特 奇偶 校 验 问 题 。 

. 傅 里 时 理论 可 用 来 证 明 具 有 S 型 隐 单 元 的 三 层 神 经 网 络 能 以 任意 精度 到 近 任何 后 验 函 
数 。 考 虑 二 维 输入 和 单一 输出 x(a ,zs), 仿 里 叶 理 论 叙 述 如 下 :在 很 弱 的 条 件 下 ,任何 
一 个 这 样 的 函数 司 SS BAR GE WB Be FH Anr NaF A 


ex2) = Ý YO Ap p cost fixi) cosl frx2) 
fi fp 


(a) 利用 三 角 关 系 恒等式 
cos(a@) cos(B) = | cos(a + B)+ = cos(a — B) 


将 x(x) ,Zi ) 写 成 cos( fix, + for.) fl cos( fiz — fox. WRES. 
Cb) 证 明 cos(c), RaSh EER AE PR A(Cz) ,都 可 由 符号 图 数 的 线性 组 合 以 任 
意 精度 逼近 如 下 : 


N 
f(x) © f(xo) + 》 [Ff Gis) 一 Oo) 
i=0 

其 中 x, 是 z 的 序列 值 ,z+ — 2, BV). BITRE Re. 

Co) 将 你 的 结论 联合 起 来 ,证 明 zC 22) FT PR RR ES PRE A em. 
it BK eb Bak FF S eR AE RE RAD SB r 和 zs 的 线性 组 合 。 解 释 为 什 
么 这 说 明了 有 具有 S 型 隐 单 元 和 一 个 线性 输出 单元 的 三 层 网 络 可 用 来 近似 任何 可 由 
傅 里 叶 级 数 表 示 的 函数 。 

Cd) 你 的 结论 可 以 保证 导数 d f(a) /dax 也 能 被 很 好 地 通 近 吗 ? 

3 节 

考虑 用 nn 个 模式 进行 zm. 次 训练 的 一 个 d-ny-c 型 网 络 。 

Ca) 此 问题 的 空间 复杂 * 度 是 多 少 ? (网 络 参 数 的 存 凡 和 模式 存 贮 都 要 考虑 ,但 不 考虑 程 
FEH). 


1 + Sgn(x — x;) 
[a 
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Cb) 假设 网 络 训练 由 一 个 随机 模式 来 训练 ,时 间 复 杂 度 是 多 少 ? 由 于 它 受 累计 乘法 次 
数 的 控制 ,所 以 将 此 作为 时 间 复 杂 度 的 测度 。 | 

Co) 假设 网 络 由 成 批 模式 训练 ,时 间 复 杂 度 是 多 少 ? 

.证 明 三 层 网 络 中 一 个 隐 单 元 的 敏感 度 8 的 公式 ( 式 (21)) 可 推广 到 四 层 ( 或 更 多 层 ) 网 络 
中 的 一 个 隐 单 元 ,其 敏感 度 是 下 一 个 更 高 层次 中 各 单元 敏感 度 的 加 权 和 。 

.用 文字 解释 ,为 什么 训练 输入 层 到 隐 含 层 权 值 的 反 向 传播 规则 可 通过 考虑 对 式 (21) 中 
各 项 的 依赖 性 而 具有 很 直观 的 意义 ? 

.读者 可 能 会 猜想 , 反 向 传播 学 习 规 则 应 该 与 (net) 逆 相关 一 一 即 权 值 的 变化 在 输出 不 
变 的 地 方 会 很 大 。 实 际 上 ,如 式 (17) 所 示 , 学 习 规 则 在 f (net) 中 是 线性 的 。 直 观 地 解 
释 为 什么 学 习 规 则 在 f (net) h ERER. 

.证明 式 (17) 和 (21) 有 所 示 的 学 习 规 则 在 有 偏 置 存在 时 可 以 取得 很 好 的 效果 ,其 中 
Zo 一 yo 二 1 被 看 成 是 另 一 个 连 到 隐 单 元 的 输入 单元 。 

.考虑 具有 d 个 输入 单元 n 个 隐 单 元 .c 个 输出 单元 以 及 偏 置 的 一 个 标准 三 层 反 向 传 
播 网 。 

(a) 网 络 中 有 多 人 少 权 值 ? 

Cb) 考虑 权 值 对 称 。 特 别 是 ,证 明 如 果 将 每 一 个 权 值 的 符号 反 向 ,网 络 功能 不 变 。 

(O 现在 考虑 隐 单 元 的 对 称 交 换 。 隐 单元 上 没有 标记 ,因此 它们 可 以 相互 交换 ( 沿 着 对 
MALIE) 而 使 网 络 功能 不 受 影 响 。 证 明 该 等 价 标记 数 一 一 对 称 交 换 因 子 一 一 为 
nn2"”H 。 在 ny =10 的 情况 下 估计 该 因子 的 值 。 

9. 写 出 在 线 反 向 传播 训练 的 伪 码 程序 ,注意 区 别 它 和 随机 过 程 及 批 处 理 过 程 。 

10. 在 如 下 两 种 情况 下 ,将 sigmoid 的 导数 用 sigmoid 本 身 来 表示 (对 于 正常 数 a AD): 


(a) 完全 为 正 的 sigmoid: f(net) =~ 
+e 


(b) 反对 称 的 sigmoid; f(net) =a tanhCe net), 

11. 将 反 回 传播 算法 推广 到 四 层 以 及 各 单元 具有 各 自 的 激活 函数 (光滑 可 微 ) 的 网 络 。 特 
ANNE Kary, 和 xz, 表示 一 个 四 层 全 连接 网 络 的 后 续 层次 中 各 单元 上 的 激发 ,由 目 
标 值 训练。 设 fi; 为 第 一 层 单 元 i 的 激发 , fz; 为 第 二 层 , 以 此 类 推 。 对 于 一 般 的 四 层 
网 络 写 一 个 程序 ,用 比 算法 1 更 详细 的 步骤 ,计算 敏感 度 ,进行 权 值 更 新 ,等 等 。 

6.4 节 

12. 解释 为 什么 输入 层 到 隐 含 层 的 权 值 必须 相互 不 等 ( 即 是 随机 的 ) ,否则 学 习 不 能 顺利 进 
行 ( 比 较 上 机 题 2)。 更 明确 地 说 ,如 果 权 值 初始 化 为 相同 的 值 ,将 出 现 什 么 现象 ? 

13. 如 果 将 两 个 隐 单 元 上 的 标记 互 换 ( 且 权 值 适 当 的 变化 ) ,误差 曲面 的 形状 不 受 影响 。 考 
虑 一 个 d-ny-c 型 三 层 网 络 , 有 多 少 种 等 价 的 单元 标记 (以 及 它们 相连 的 权 值 )? 

14. 说 明 进 行 适当 的 数据 预 处 理 可 效 得 更 快 的 收敛 速度 , 至少 在 一 个 简单 的 有 偏 置 的 
2-1 网 络 ( 两 层 网 络 )。 设 训练 数据 取 自 于 两 个 高 斯 分 布 ,pC(z|w)~N( 一 0.5,1) 和 
plz|ws)~N( 十 0.5,1)。 设 两 类 的 教师 信和 号 为 :二 土 1。 

(a) 写 出 作为 权 值 输入 和 其 他 参数 的 函数 的 ”个 模式 的 总 误差 。 

(b) 对 权 值 进行 两 次 微分 得 到 欧 森 和 矩阵 H. 

Cc) 考虑 从 palo ~N, ID GEP i=1,2,18 2 x 2 的 单位 和 矩阵) 中 取出 的 两 套数 
据 集 ,计算 用 4; 表示 的 赫 森 矩阵 。 

(d) 计算 由 &; DIR RR ERA AR) AEA. 


> 


Cn 


cm 


~~] 


oe) 
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Ce) W e= 1,0) Ale, = (0,1) ,计算 本 征 值 的 比 , 从 而 得 出 收敛 时 间 的 大 小 。 

Cf) 现 通 过 去 均值 并 将 两 维 中 每 一 维 上 的 方差 妇 一 化 为 单位 值 来 使 数据 规格 化 。 也 
就 是 , 求 出 两 个 新 的 具有 0 均值 和 相同 协 方差 的 分 布 。 通 过 计算 最 大 和 最 小 本 征 
值 的 比值 来 验证 你 的 结论 。 

Cg) 如 果 工 表示 对 未 经 处 理 的 数据 的 总 的 训练 时 间 , 写 出 对 已 作 预 处 理 的 数据 所 需 的 
时 间 ( 比 较 上 机 习题 12). 

15. 考虑 推导 简单 的 梯度 下 降 法 的 收敛 时 间 的 界 。 假 设 误差 范 数 可 由 具有 4 个 本 征 值 
A, y Az errr Ay AY) dk BR AS He H 来 表示 ,其 中 A max 和 Amin N ARG FH BK A R/V 设 对 
于 某 一 维 学 习 率 已 经 设置 为 最 优 值 ,如 式 (36) 所 示 。 

Ca) 以 适当 的 本 征 值 , 即 Annex BK hs, 来 表示 最 优 学 习 率 。 
Cb) 叙述 一 种 学 习 的 收敛 准则 。 
Cc) 用 所 给 的 变量 ,计算 该 系统 达到 该 收敛 准则 的 时 间 。 

.假设 准则 函数 几 w) 已 被 一 赫 森 矩阵 H 表示 成 二 阶 形式 。 

Ca) 证 明 如 果 学 习 率 满足 92 / Ana ;其 中 和 是 HR AKA MEE ABA BY RES A. 
Cb) 证 明 学 习 时 间 取 决 于 H 的 非 负 本 征 值 的 最 大 值 与 最 小 值 的 比值 。 

Cc) 解释 为 什么 “规格 化 ”训练 数据 可 以 减少 训练 时 间 。 

Cd) 此 标准 化 与 第 2 章 中 的 白化 变换 有 什么 联系 ? 

6.6 节 

17. 完成 导出 式 (26) 的 推导 步骤 。 

18. 证 明 最 小 均 方 误差 条 件 的 解 之 一 将 产生 实际 上 是 后 验 概 率 的 输出 。 按 如 下 的 步骤 来 
做 : 

(a) 为 了 求 出 式 (28) 中 的 J(w) 的 极 小 值 ,计算 它 的 导数 3 (w)/9w, 它 由 两 个 积分 式 的 
和 组 成 。 设 3j(w)/9w= 二 0 得 出 自然 解 。 

Cb) 应 用 贝 叶 斯 规则 和 归 一 化 P(w, Ix) 十 已 Co， |x) 王 1 来 证 明 输 出 Zk Tgi (x;w) 实 
际 上 等 于 后 验 概 率 Plo, |x). 

19. 在 寻找 后 验 概率 的 最 小 二 乘 拟 合 的 反 向 传播 的 推导 中 ,暗示 了 网 络 的 确 是 可 以 表示 实 
际 的 分 布 的 。 解 释 推导 过 程 中 的 什么 地 方 可 以 说 明 这 一 点 ,并 且 如 果 该 假设 不 合法 ， 
那么 在 接 下 来 的 步骤 中 什么 将 不 成 立 ? 

20. 证 明 softmax( 软 极 大 法 ) 输 出 ( 式 (30)) 实 际 上 可 以 近似 后 验 概率 ,前 提 是 隐 单 元 的 输 
出 y, 服 从 指数 分 布 


] 


op) 


plyl@x) = exp[A(Wi) + Bly, 6) + Wy] 


对 于 ma ERE w, 和 y, 以 及 标量 9. 标量 函数 ACM B(，,*)。 按 如 下 的 步骤 进行 
处 理 
Ca) 给 出 p(y|w), 利 用 贝 叶 斯 公式 写 出 后 验 概率 Poly. 
(b) 用 你 的 结论 解释 参数 AC), w: BC , DURE, 

21. 考虑 一 个 用 于 分 类 的 三 层 网 络 , 其 输出 单元 引入 softmax 法 ( 式 (30)), 由 0-1 信号 进 
行 训练 。 | 
Ca) GUAR HE Wl) pe Be CEP EN) FE TR EOF Te A, BD 


1 č 
Jom) = 5 De — ee)? 
k=l 
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推导 出 学 习 规 则 。 
Cb) 如 果 准 则 函数 为 互 炉 , 即 


c 
t 

Jee(W) = S tln k 
k=l Zk 


再 推导 出 学 习 规 则 。 

22. 显然 如 果 判 别 函 数 g(x;w) 和 g, (x;w) 独 立 , 式 (28) 的 推导 将 由 式 (27) 接 下 来 。 证 
明 ,不 管 这 些 功 能 是 否 使 用 同样 的 输入 层 到 隐 舍 层 权 值 来 实现 ,该 推导 过 程 仍然 合法 。 
判别 函数 是 独立 的 吗 ? 

6.7 节 

23. 证 明 sigmoid 函数 的 斜率 和 学 习 率 一 起 决定 了 学 习 时 间 。 

Ca) 也 就 是 ,证 明 如 果 sigmoid 函数 的 斜率 通过 加 和 人 一 个 7Y 系 数 而 增加 ,学习 率 通过 加 
人 一 个 177Y 因子 而 减 小 ,那么 总 的 学 习 时 间 保 持 不 变 。 
(b) 如 果 这 种 关系 成 立 ,那么 输入 是 否 一 定 要 重新 尺度 化 ? 

24. 通过 详细 的 描述 式 (7) 和 式 (32) 间 的 对 应 关系 ,证 明 6. 2 节 中 的 基本 的 三 层 神经 网 络 
EST SC Be Tin Be AY oF BA 

25. 证 明 如 果 其 输入 是 正 态 分 布 ,sigmoid HR BREBH RR BRAK. BRR AA 


息 度量 ) 定 义 为 H = [LOO ay. 


(a) 考虑 一 个 连续 的 输入 变量 r 从 密度 pa) ~NO.07 PRE ZONES? 
Cb) 设 样本 r 经 过 一 反对 称 sigmoid 型 函数 ,给 出 y= f(z) APOE sigmoid 发 生 
在 高 斯 输入 的 峰值 , 且 线 性 区 域 的 有 效 宽 度 等 于 一 o 二 x 二 十 co。 式 (34) 的 a 和 5 
的 值 应 为 多 少 ? 
Cc) 计算 输出 分 布 PCy) RE. 
Cd) 如 果 设 激活 函数 是 狄 拉 克 函 数 SCz 一 0) ,所 得 的 输出 分 布 py HABE? 
(e) 用 文字 总 结 (c) 和 (d) 的 结论 。 
6.8 节 
26. 考虑 S AYE KA 


: _ oo—b net 
f (net) = a tanh(} net) =a [ e | 2a 


1 + et ner 一 1+ e7b net ~ 


(a) 证 明 它 的 导数 f (net) 可 简单 的 写成 f met HBX. 
(b) 在 net= 一 ceo.0、 十 ce 时 f(net). f (net)、 了 (net) 分 别 是 多 少 ? 
27. 考虑 如 正文 中 所 述 的 标准 数据 的 计算 量 
(a) 标准 化 n Td 维 模式 的 训练 集 的 计算 复杂 度 是 多 少 ? 
(b) 佑 计 训 练 的 计算 复杂 度 。 利 用 提示 信息 选取 6. 8.7 节 中 所 述 的 网 络 大 小 (如 权 值 
RO , 设 训练 次 数 为 nd. 
Cc) 利用 (a) 和 (b) 中 的 结论 将 标准 化 的 计算 量 表 示 成 一 个 比值 。( 设 未 知 第 数 为 1.0.) 
28. 对 于 式 (42) 的 闵可夫 斯 基 误 差 及 任意 的 尺 , 推 导 一 个 三 层 网 络 的 梯度 下 降 学 习 规 则 ， 
该 三 层 网 络 具 有 线性 输入 单元 以 及 S 型 隐 含 和 输出 单元 。 证 明 当 尺 =2 时 该 结论 可 
得 出 式 (17) 和 式 (21) 。 
29. 考虑 一 个 d-np-c 型 三 层 神 经 网 络 , 它 的 输入 单元 是 线性 的 ,输出 单元 是 S 型 的 ,但 每 
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一 个 隐 单 元 执行 一 个 特殊 的 多 项 式 函 数 , 由 一 个 误差 平方 和 准则 进行 训练 。 更 明确 地 
说 , 设 隐 单元 7 的 输出 由 
Oj = WjiXi + WimXm 十 9 jXiXm 
给 出 ,i 和 m 关 i 是 两 个 预先 指定 的 输入 。 
(a) 写 出 对 于 输入 到 隐 含 权 值 和 标量 参数 q 而 言 的 梯度 下 降 学 习 规 则 。 
Cb) 对 于 隐 含 到 输出 单元 权 值 而 言 的 学 习 规 则 是 否 不 同 于 课文 中 所 述 的 标准 三 层 网 
络 ? 
Cc) 这 样 的 网 络 和 它 的 学 习 规 则 的 优点 和 缺点 可 能 是 什么 ? 

. 对 于 式 (42) 所 定义 的 闵可夫 斯 基 误 差 ,推导 反 向 传播 学 习 规则 。 证 明 你 的 结论 在 
R 一 2 时 将 得 出 标准 的 学 习 规 则 。 对 于 Manhattan 度量 , 即 不 需要 参考 R 的 值 ,重新 推 
导 你 的 结论 。 

6.9 节 

31. 写 出 一 个 三 层 网 络 误差 平方 和 的 赫 森 和 矩阵 的 中 间 推 导 步 骤 , 如 式 (47) 所 示 。 

32. 在 互 炳 误差 准则 下 重 做 31 题 。 

33. 设 一 误差 函数 的 赫 森 矩阵 正比 于 单位 矩阵 , 即 HI, 

Ca) 证 明 在 这 种 情况 下 ,用 于 共 轿 梯度 下 降 法 的 Polak-Ribiere 公式 和 Fletcher-Reeves 
公式 , 即 式 (57) 和 式 (56) ,得 出 B=0. 
Cb) 对 你 的 结果 作 一 说 明 。 特 别 说 明 为 什么 比例 于 单位 矩阵 的 赫 森 矩阵 ,以 上 两 种 方 
法 将 得 出 相同 的 8 值 ,并 旦 为 什么 所 得 出 的 8 值 为 0。 
34. 考虑 一 误差 曲面 , 它 可 由 与 训练 集 上 的 误差 平方 和 相关 联 的 正定 的 赫 森 矩阵 来 近似 。 
用 w "来 表示 网 络 的 最 优 权 值 向 量 , 即 位 于 全 局 极 小 值 处 ,用 Aw=w—w’ 来 表示 一 任 


3 


© 


意 权 值 向 量 与 该 权 值 向 量 的 差距 。 证 明 沿 共 轿 梯度 下 降 法 所 给 的 方向 运动 ,最 初 衰减 


AA || Aw | ,从 而 该 过 程 将 收敛 。 

35. 基于 正文 中 的 讨论 ,推导 出 式 (53) 的 Quickprop 学 习 规 则 ,请 说 明 你 需要 用 到 的 所 有 
的 假设 条 件 。 

6. 10 $ 

36. 证 明 式 (66) 所 示 的 匹配 滤波 器 将 给 出 一 个 如 下 所 示 的 极 大 值 ( 不 仅仅 是 一 个 极 值 ) 所 
规定 的 期 望 信号 为 x(t). 
(a) Awo=w O+AOKRRR-BRRRABR Hw’ (21) 为 匹配 滤波 器 。 要 求 
该 试验 权 值 孙 数 满足 式 (63) 的 限定 条 件 , 即 


十 oo +00 


[vo dt = J w*?(t)dt 
将 该 式 的 左边 展开 来 证 明 
+00 +00 
-2 f howe dt = [ Peat > 0 (71) 


Cb) 由 式 (62) ,用 z 来 表示 与 目标 输入 相 匹 配 的 滤波 器 的 输出 ,利用 (a) 中 的 结论 证 
明 试 验 权 值 的 输出 为 
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Co) 4 的 符号 由 zx* 的 符号 决定 。 利 用 式 (66) 说 明 的 符号 与 z* 的 符号 相反 。 
(d) 利用 以 上 所 有 的 结论 证 明 , 当 且 仅 当 对 所 有 的 :有 h(t)=0 时 ,z* 一 >, 即 匹配 滤 
ew (2) 保 证 输出 达到 最 大 值 , 且 w* (1) 是 惟一 的 。 | 

37. 在 三 层 sigmoid Wih FE AR HES OBD 和 OBS 的 基本 方程 (也 就 是 类 似 
于 式 (69))。 

38. 推导 三 层 径 向 基 函 数 神经 网 络 的 学 习 规 则 ,其 中 隐 单 元 是 球状 高 斯 的 ,其 均值 & 及 幅 
度 通过 数据 进行 学 习 。 

6. 11 节 

39. 考虑 一 个 一 般 的 常数 矩阵 K RA SSW eS x. 
Ca) 利用 对 各 个 分 量 显 式 的 使 用 求 和 符号 来 推导 如 下 的 导数 公式 ， 


4 KX] 一 (K + K’)x 
dx 
Cb) 简单 地 证 明 ,在 天 是 对 称 的 情况 下 (比如 赫本 矩阵 HH==H') ,有 
d, 加 
ax Hx] = 2Hx 


它 用 来 推导 OBD 和 OBS 方法 。 
40. 权 值 衰减 等 价 于 对 具有 一 个 “复杂 程度 ”项 的 误差 进行 梯度 下 降 。 
(Ca) 证 明 在 权 值 衰减 规则 w= 二 ww (1 一 ee) 中 , 它 等 价 于 执行 一 个 误差 函数 


Jy =J W HÉ WWR GD HREF E. 


Cb) 用 权 值 衰减 常数 < 和 学 习 率 7 来 表示 7。 
Cc) 类 似 地 ,证 明 如 果 wY = wha (I — em) 其 中 = 二 1/ 十 wi )? ABA BH A BORE wh 
数 是 Je =F CWA Qe We (A+ wi) BA A Em PTB OR HY. 
d) 考虑 一 个 具有 较 大 幅 值 范围 的 权 值 的 网 络 。 定 性 地 描述 两 种 不 同 的 权 值 衰减 方 
法 是 如 何 影响 网 络 的 。 
. 证 明 式 (38) 的 权 值 衰减 规则 等 价 于 倾向 于 小 权 值 的 先 验 模型 。 
. 证 明 式 (38) 的 权 值 衰减 规则 可 导出 式 (39) 的 J ngo 
. 式 (69) 的 OBS 需要 求 H 的 道 。 一 种 计算 此 逆 矩 阵 的 方法 是 从 一 个 小 值 开始 ,Hs = 
a I, 通过 式 (70) 重 复 估算 了 。 在 这 种 情况 下 ,证 明 a 相当 于 一 个 权 值 衰减 常数 。 
44. 从 式 (68) 的 准则 函数 的 泰勒 级 数 展开 式 ,推导 OBS 算法 的 关键 公式 , 式 (69)。 
345 45. 考虑 OBS 过 程 的 计算 量 如 下 ， 
(a) KH OBS 方法 中 做 一 步 的 空间 和 时 间 计 算 复 杂 度 。 
Cb) 求 出 消除 OBS 中 第 一 个 权 值 的 空间 和 时 间 计 算 复 杂 度 。 如 果 利 用 Shur 的 分 解 
方法 ,消除 接 下 来 的 权 值 的 空间 和 时 间 复 杂 度 是 多 少 ? 
Cc) 求 出 完成 OBD 的 一 步 ( 不 用 再 训练 ) 的 空间 和 时 间 计 算 复杂 度 。 
(d 计算 OBD 中 的 “显著 性 ”, 假 设 对 于 所 有 的 i4) 有 了 Hu =0. 


4 
4 
4 


GS BD ee 


pf 
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。 上 机 练习 

有 些 练习 需要 用 到 如 下 的 三 维 数据 ,这 些 数据 分 别 从 三 个 类 别 ( 记 为 w ) 中 抽取 。 

CI Ww Ww 

样 本 Xi x X3 Y] x2 X3 X] x2 X3 
| 1.58 2.32 —5.8 0.21 0.03 — 2.21 — 1.54 1.17 0.64 
2 0.67 1.58 —4.78 0.37 0.28 —1.8 5.41 3.45 -1.33 
3 1.04 1.01 — 3.63 0.18 1.22 0.16 1.55 0.99 2.69 
4 ~149 2.18 —3.39 一 0.24 0.93 — 1.0} 1.86 3.19 1.51 
5 ~0.4] 1.21 — 4.73 —1.18 0.39  —0.39 1.68 1.79  —0.87 
6 1.39 3.16 2.87 0.74 0.96 —1.16 3.51 一 0.22 ~1.39 
7 1.20 1.40 — 1.89 —0.38 1.94 —0.48 1.40 —0.44 0.92 
8 —0.92 1.44 —3.22 0.02 0.72 —0.17 0.44 0.83 1.97 
9 0.45 1.33 —4.38 0.44 1.31 —0.14 0.25 0.68 —0.99 
10 一 0.70 0.84 —1.96 0.46 1.49 0.68 一 0.00 —0.45 0.08 

6.2 © 


1. 考虑 一 个 2-2-1 型 的 网 络 及 偏 置 , 其 隐 单 元 和 输出 单元 的 激活 号 数 为 一 S A pR: 
y, =a tanh(b net;), H a=1.716,b=2/3, 
(a) 设 描述 输入 层 到 隐 含 层 权 值 Cur ,j= 二 1,2,i 二 0,1,2) 及 隐 含 层 到 输出 层 权 值 (w， 
k 二 1,j 二 0,1,2) 的 矩阵 分 别 为 


0.5 —0.5 1.0 
0.3 —0.4 及 一 2.0 
—0.1 1.0 0.5 


该 网 络 被 用 来 根据 输出 信号 的 符号 ,将 模式 分 类 为 两 种 类 别 中 的 一 种 。 根 据 网 络 
所 给 出 的 种 类 将 二 维 ri oe 输入 空间 (一 5 和 mi ,zs 三 十 5) 用 黑色 或 白色 绘 出 。 
(b) 利用 下 面 的 权 值 矩阵 重复 (a) 


-1.0 1.0 0.5 
-0.5 1.5 及 —1.0 
1.5 —0.5 1.0 
6.3 4 


2. 构造 一 个 加 偏 置 3-1-1 型 sigmoid 网 络 , 训 练 它 用 来 将 模式 分 到 上 表 中 的 w Ao, 类 
中 。 利 用 随机 反 向 传播 (算法 1) 及 学 习 率 7%=0.1 和 6. 8.2 市 中 的 式 (34) 所 述 的 
sigmoid PKZ. 

(a) 在 范围 一 1 委 w 委 十 1 内 随机 初始 化 所 有 权 值 , 绘 出 一 学 习 曲 线 一 一 训练 误差 作为 
回合 的 函数 。 
(b) 现 重复 (a) ,但 此 时 权 值 在 每 一 层 上 被 初始 化 为 相同 的 值 。 特 别 是 , 设 所 有 输入 到 
隐 舍 权 值 初始 化 为 wi 二 0.5, 所 有 隐 和 全 到 输出 权 值 初始 化 为 wi == 一 0. 5。 
Cc) 说 明 以 上 学 习 曲 线 间 的 不 同 之 处 (比较 习题 12) 。 
3. 考虑 非 线性 可 分 的 分 类 问题 , 示 于 图 6-8. 
(a) 通过 成 批 反 向 传播 (算法 2) 来 训练 一 个 加 偏 置 1-3-1 S 型 网 络 来 解决 该 问题 。 
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Cb) 通过 沿 厦 r 轴 的 分 类 点 显示 出 你 的 判决 边界 。 

Co) 对 于 一 个 1-2-1 网 络 重复 以 上 问题 。 

(d) 检查 你 的 1-3-1 网 络 的 判决 边界 (或 者 手工 构造 一 个 最 优 的 ) 并 解释 为 什么 没有 一 
个 具有 S 型 隐 单 元 的 1-2-1 型 网 络 可 获得 这 样 的 判决 边界 。 


. 对 于 加 偏 置 2-2-1 型 网 络 写 一 个 反 向 传播 程序 来 解决 XOR 问题 (比较 图 6-1). 


Ca) 显示 输入 层 到 隐 含 层 权 值 并 分 析 每 一 个 隐 单 元 的 功能 。 
(b) 在 yy: 空间 中 绘 出 每 一 种 模式 的 代表 点 以 及 最 终 的 判决 边界 。 
(c) 尽管 未 用 于 一 个 训练 模式 ,在 你 的 yi ys 空间 中 显示 出 x=0 的 代表 点 。 


对 于 一 个 加 偏 置 3-3-1 型 网 络 , 写 一 个 基本 的 反 向 传播 程序 来 解决 3 位 奇偶 校 验 问题 ， 


其 中 每 一 个 输入 具有 值 士 ]。 也 就 是 说 ,如 果 具 有 十 1 值 的 输入 个 数 为 偶数 ,那么 输出 

为 十 1, 如 果 该 输入 数 为 奇数 , 则 输出 为 一 1。 

Ca) 显示 出 输入 层 到 隐 含 层 权 值 ,并 分 析 每 一 个 隐 单 元 的 功能 。 

(b) 从 新 的 随机 点 重新 训练 几 次 ,直到 得 到 一 个 局 部 (而 非 全 局 ) 极 小 值 。 分 析 隐 单元 
的 功能 。 

Co) 对 于 局 部 极 小 值 ,有 和 多少 模 式 被 正确 的 分 类 ? 为 什么 ? 


: 寻找 隐 单 元 数 对 一 个 加 偏 置 2-ng-1 神经 网 络 分 类 器 在 一 个 二 维 两 类 问题 中 的 分 类 精 


确 度 的 影响 ,其 中 palan) ~ NODA poxlan)~n((— .): f ,)). 


(a) 产生 100 个 点 的 训练 集 ,每 一 类 50 个 点 ,以 及 独立 的 40 个 点 的 集合 (每 一 类 20 个 

Fa) 。 

Cb) HAMARE, <n S10, XR BY ETT AMA IB HP A BY 
络 , 绘 出 训练 和 测试 误差 率 ,如 图 6-15 所 示 。 多 少 个 隐 单 元 数 可 以 给 出 最 小 的 训 
练 误差 率 ? 多 少 个 隐 单 元 数 可 以 给 出 最 小 的 测试 误差 率 ? 〈 将 后 者 称 为 nha) 

Cc) 重新 初始 化 一 个 2-n#-1 网 络 并 训练 它 。 绘 出 学 习 曲 线 , 即 训练 误差 与 验证 误差 作 
为 训练 次 数 的 函数 。 设 在 此 验证 误差 的 极 小 值 时 将 停止 训练 ,在 此 停止 点 处 的 验 
证 误差 值 是 多 少 ? 

Cd) 比较 并 解释 Cc) 中 的 验证 误差 极 小 值 与 (b) 中 的 nn 个 隐 单 元 的 对 应 的 验证 误差 的 
区 别 。 


» 以 一 个 任意 的 二 维 2- 类 分 类 问题 来 训练 一 个 在 每 一 个 隐 单 元 上 具有 不 同 的 激活 函数 


的 2-4-1 型 网 络 。 此 问题 具有 从 单元 正方 随机 选择 的 2: 个 模式 。 试 估计 期 望 误差 为 
252% 的 上 ,并 讨论 结果 。 


.4 市 
.考虑 一 个 具有 S 型 激活 函数 的 3-1-3 型 网 络 (加 偏 置 ), 用 上 面 表格 中 的 数据 来 训练 该 


网 络 。 
(a) 计算 赫 森 矩阵 H. 
(b) 求 再 的 本 征 值 和 本 征 向 量 。 


5# 
.证 明 网 络 的 隐 单 元 在 如 下 的 光学 字符 识别 问题 中 可 以 找到 有 意义 的 特征 组 合 。 


(a) 设 输入 空间 由 8 x 8 的 像素 格 点 组 成 。 通 过 如 下 的 方式 对 B 类 别 产 生 100 个 训练 
模式 。 从 代表 B 的 一 个 块 状 字 母 开始 ,其 中 “ 黑 ” 像 素 具 有 值 一 1.0,“ 白 ”像素 具有 
值 十 1.0。 通 过 加 入 与 每 个 像素 点 无 关 的 独立 的 随机 躁 声 , 产 生 此 B 模型 的 100 个 
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不 同 的 版 本 。 设 噪声 为 一 0.5 到 十 0.5 间 的 均匀 分 布 。 对 于 O 和 下 ,重复 以 上 步 
又 。 通 过 这 种 方式 可 产生 具有 300 个 训练 模式 的 一 个 集合 D. 
(b) 利用 你 的 训练 集 D 训练 一 个 64-3-3 型 网 络 ( 加 偏 置 ) 。 
(c) 将 输入 层 到 隐 含 层 权 值 显示 为 一 个 8 x 8 图 像 。 对 于 每 一 个 隐 单 元 分 别 显 示 。 
(d) 说 明 (c) 中 显示 的 权 值 的 模式 。 
6.6 节 
10. 考虑 训练 一 个 三 层 网 络 来 估计 如 下 4 个 等 概率 的 三 维 数据 : 
Ca) 首先 产生 4000 个 模式 的 训练 集 D, 下 面 每 一 个 高 斯 分 布 palo ~N, X), 
i 一 ] ,2,3,4, 有 1000 个 模式 : 
) 
2 
5 


一 1 
3 0 Diag(2,6,1] 
0 
4 0.5 Diag{2,1,3] 
l 


Cb) 利用 D 中 的 4000 个 模式 训练 一 个 3-3-4 型 网 络 ( 加 偏 置 ) ,使 用 式 (30) 所 给 的 软 
极 大 法 目标 值 。 
Cc) 利用 你 的 训练 网 络 估计 如 下 5 eh x, = (0,0,0)', x, =(—-1,0,1)',x, = (0.5, 
—0. 5,0)! sx, 一 (一 1,0,0)',xs =(0,0,0)* 的 每 一 个 的 后 验 概率 。 
Cd) 利用 该 网 络 将 5 个 测试 模式 分 类 。 
Ce) 利用 第 2 章 的 技术 计算 5 个 测试 模式 的 后 验 概 率 。 与 (c) 中 的 结果 进行 比较 。 
6.7 节 
11. 考虑 几 个 梯度 下 降 法 运用 于 一 维 的 某 个 准则 函数 :具有 固定 学 习 率 wy 的 简单 梯度 下 降 
法 .优化 下 降 法 、 牛 顿 法 以 及 Quickprop 法 。 首 先 考虑 准则 函数 Iw) 一 必 ,显然 在 
w= 二 0 处 有 极 小 值 J=0。 在 所 有 的 情况 下 都 从 w(0)=1 处 开始 下 降 。 为 明确 起 见 ,我 
们 考虑 当 Cw) <0. 001 时 收敛 完成 。 
(a) BHA 7 eR A, yn AW 0. 01,0. 03,0.1,0.3,1.3, 
(b) 通过 式 (36) 计 算 最 优 学 习 率 ws ,证 明 此 值 与 (a) 中 的 结论 相 一 致 。 
(c) 通过 式 (53) 的 Quickprop 规则 计算 权 值 更 新 。 
6. 8 节 
12. 说 明 数 据 预 处 理 可 以 使 学 习 时 间 大 量 减 少 。 考 虑 对 于 两 类 分 类 问题 的 某 个 单一 的 线 
性 输出 单元 ,在 教师 信号 为 十 ] 及 平方 误差 准则 下 。 
(a) 写 一 个 程序 ,基于 训练 样本 来 训练 三 个 权 值 。 
Cb) 从 两 种 类 别 Plo) = P(e.) =0.5 及 pl(x|o) ~ 一 N(4Ki;, 了 的 每 一 类 产生 20 个 样本 ， 
其 中 I 是 2X2 的 单位 矩阵 咎 一 (0 六 ,1 一 (1 ,一 1)。 
Cc) 通过 尝试 一 些 值 找 出 经 验 上 的 最 优 学 习 率 。 
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(d) 训练 到 最 小 误差 。 在 这 种 情况 下 为 什么 没有 “过 训练 ”的 危险 ? 
Ce) 为 什么 可 以 肯定 该 网 络 至 少 可 能 获得 最 小 ( 贝 叶 斯 ) 误 差 ? 

H 产生 100 个 测试 样本 ,每 个 类 别 50 个 ,估计 误差 率 。 

Cg) 现 通过 与 均值 相 减 并 将 每 一 维 规格 化 为 标准 方差 来 预 处 理 数 据 。 


Ch) 重复 以 上 步骤 , 找 出 最 优 学 习 率 。 
O 求 (变换 后 的 ) 测 试 集 上 的 误差 率 。 


Cj) 验证 两 种 情况 下 的 准确 率 实际 上 是 一 样 的 (任何 差别 可 能 是 由 随机 效应 所 造成 的 )。 


Ck》 用 文字 说 明 这 些 结论 的 内 在 原因 。 


参考 文献 


[1] 


[2] 


[3 


et 


[4 


— 


[5 


Nae 


[6 


dami 


[7 


hel 


[8] 


[9 


La 


[10] 


[11] 


{12} 


Yaser S. Abu-Mostafa. Learning from hints in neural net- 
works. Journal of Complexity, 6(2):192-198, 1990. 


James A. Anderson, Andras Pellionisz, and Edward 
Rosenfeld, editors. Neurocomputing 2: Directions for 
Research. MIT Press, Cambridge, MA, 1990. 


James A. Anderson and Edward Rosenfeld, editors. 
Neurocomputing. Foundations of Research. MIT Press, 
Cambridge, MA, 1988. 


Christopher M. Bishop. Neural Networks for Pattern 
Recognition. Oxford University Press, Oxford, UK, 
1995, 

John S. Bridle. Probabilistic interpretation of feedfor- 
ward classification network outputs, with relationships 
to statistical pattern recognition. In Francoise Fogelman- 
Soulié and Jeanny Hérault, editors, Neurocomputing: Al- 
gorithms, Architectures and Applications, pages 227- 
236, Springer-Verlag, New York, 1990. 

Arthur E. Bryson, Jr., Walter Denham, and Stuart E. 
Dreyfus. Optimal programming problem with inequal- 
ity constraints. I: Necessary conditions for extremal so- 
lutions. American Institute of Aeronautics and Astronau- 
tics Journal, 1(11):2544—2550, 1963. 


Arthur E. Bryson, Jr. and Yu-Chi Ho. Applied Optimal 
Control. Blaisdell, Waltham, MA, 1969. 


Wray L. Buntine and Andreas S. Weigend. Computing 
second derivatives in feed-forward networks: A review. 
IEEE Transactions on Neural Networks, 5(3):480-488, 
1991. 

Vladimir Cherkassky, Jerome H. Friedman, and Harry 
Wechsler, editors. From Statistics to Neural Networks: 
Theory and Pattern Recognition Applications. NATO 
ASI. Springer, New York, 1994. 


Yann Le Cun. A learning scheme for asymmetric thresh- 
old networks. In Proceedings of Cognitiva 85, pages 
599-604, Paris, France, 1985. 


Yann Le Cun. Learning processes in an asymmet- 
ric threshold network. In Elie Bienenstock, Françoise 
Fogelman-Soulié, and Gerard Weisbuch, editors, Disor- 
dered Systems and Biological Organization, pages 233- 
240, Les Houches, Springer-Verlag, France, 1986. 

Yann Le Cun, John S. Denker, and Sara A. Solla. Op- 


[13] 


[14] 


[15] 


[16] 


[17] 


[18] 


[19] 


[20] 


[21] 


[22} 


timal Brain Damage. In David S. Touretzky, editor, Ad- 
vances in Neural Information Processing Systems, vol- 
ume 2, pages 598-605. Morgan Kaufmann, San Mateo, 
CA, 1990 


George Cybenko. Approximation by superpositions of a 
sigmoidal function. Mathematical Control Signals Sys- 
tems, 2:303-314, 1989. 

John S. Denker and Yann Le Cun. Transforming neural- 
net output levels to probability distributions. In Richard 
Lippmann, John Moody, and David Touretzky, editors, 
Advances in Neural Information Processing Systems, 
volume 3, pages 853-859. Morgan Kaufmann, San Ma- 
teo, CA, 1991. 

Scott E. Fahlman and Christian Lebiere. The Cascade- 
Correlation learning architecture. In David S. Touretzky, 
editor, Advances in Neural Information Processing Sys- 
tems, volume 2, pages 524-532. Morgan Kaufmann, San 
Mateo, CA, 1990. 

Jerome H. Friedman and Werner Stuetzle. Projection 
pursuit regression. Journal of the American Statistical 
Association, 76(376):8 17-823, 1981. 

Kunihiko Fukushima. Neocognitron: A self-organizing 
neural network model for a mechanism of pattern recog- 
nition unaffected by shift in position. Biological Cyber- 
netics, 36:193-—202, 1980. 

Kunihiko Fukushima, Sei Miyake, and Takayuki Ito. 
Nevocognitron: A neural network model for a mecha- 
nism of visual pattern recognition. JEEE Transactions on 
Systems, Man, and Cybernetics, SMC-13(5):826—834, 
1983. 

Federico Girosi, Michael Jones, and Tomaso Poggio. 
Regularization theory and neural networks architectures. 
Neural Computation, 7(2):219-269, 1995. 

Federico Girosi and Tomaso Poggio. Representation 
properties of networks: Kolmogorov’s theorem is irrel- 
evant. Neural Computation, 1(4):465—469, 1989. 
Richard M. Golden. Mathematical Methods for Neural 
Network Analysis and Design. MIT Press, Cambridge, 
MA, 1996. 

Igor Grebert, David G. Stork, Ron Keesing, and Steve 
Mims. Connectionist generalization for productions: An 





多 


[23 


Pawel 


[24] 


[26] 


[27] 


[28] 


[29] 


[30] 


[31] 


[32] 


[33] 


[34] 


[35] 


Fett BS m 


example from Gridfont. Neural Networks, 5(4):699-710, 
1992, 


Igor Grebert, David G. Stork, Ron Keesing, and Steve 
Mims. Network generalization for production: Learn- 
ing and producing styled letterforms. In John E. Moody, 
Stephen J. Hanson, and Richard P. Lippmann, editors, 
Advances in Neural Information Processing Systems, 
volume 4, pages 1118-1124. Morgan Kaufmann, San 
Mateo, CA, 1992. 


Stephen Grossberg. Competitive learning: From interac- 
tive activation to adaptive resonance. Cognitive Science, 
{1¢1):23-63, 1987. 

John B. Hampshire, II and Barak A. Pearlmutter. Equiv- 
alence proofs for multi-layer Perceptron classifiers and 
the Bayesian discriminant function. In David $. Touret- 
zky, Jeffrey L. Elman, Terrence J. Sejnowski, and Geof- 
frey E. Hinton, editors, Proceedings of the 1990 Connec- 
tionst Models Summer School, pages 159-172. Morgan 
Kaufmann, San Mateo, CA, 1990. 


Babak Hassibi and David G. Stork. Second-order deriva- 
tives for network pruning: Optimal Brain Surgeon. In 
Stephen J. Hanson, Jack D. Cowan, and C. Lee Giles, 
editors, Advances in Neural Information Processing Sys- 
tems, volume 5, pages 164-171. Morgan Kaufmann, San 
Mateo, CA, 1993. 


Babak Hassibi, David G. Stork, and Greg Wolff. Opti- 
mal Brain Surgeon and general network pruning. In Pro- 
ceedings of the International Conference on Neural Net- 
works, volume 1, pages 293-299, IEEE, San Francisco, 
CA, 1993. 


Babak Hassibi, David G. Stork, Gregory Wolff, and 
Takahiro Watanabe. Optimal Brain Surgeon: Extensions 
and performance comparisons. In Jack D. Cowan, Ger- 
ald Tesauro, and Joshua Alspector, editors, Advances 
in Neural Information Processing Systems, volume 6, 
pages 263-270. Morgan Kaufmann, San Mateo, CA, 
1994. 


Mohamad H. Hassoun. Fundamentals of Artificial Neu- 
ral Networks. MIT Press, Cambridge, MA, 1995. 


Simon Haykin. Adaptive Filter Theory. Prentice-Hall, 
Englewood Cliffs, NJ, second edition, 1991. 


Simon Haykin. Neural Networks: A Comprehensive 
Foundation. Macmillan, New York, 1994. 


Robert Hecht-Nielsen. Theory of the backpropagation 
neural network. In Proceeding of the International Joint 
Conference on Neural Networks (I1/CNN), volume 1, 
pages 593-605. IEEE, New York, 1989. 


Geoffrey E. Hinton. Learning distributed representations 
of concepts. In Proceedings of the Eighth Annual Con- 
ference of the Cognitive Science Society, pages 1—12. 
Lawrence Erlbaum Associates, Hillsdale, NJ, 1986. 


Kurt Hornik, Maxwell Stinchcombe, and Halbert L. 
White, Jr. Multilayer feedforward networks are universal 
approximators. Neural Networks, 2(5):359-366, 1989. 


Peter J. Huber. Projection pursuit. Annals of Statistics, 
13(2):435-475, 1985. 


[36] 


[37] 


[38] 


[39] 


[40] 


[41] 


[42] 


[43] 


[44] 


[45] 


[46] 


[47] 


[48] 


[49] 


[50] 


26l 


Don R. Hush, John M. Salas, and Bill G. Horne. Er- 
ror surfaces for multi-layer Perceptrons. In Proceedings 
of International Joint Conference on Neural Networks 
(IJCNN), volume 1, pages 759-764. IEEE, New York, 
1991, 


Anil K. Jain, Jianchang Mao, and K. Moidin Mohiud- 
din. Artificial neural networks: A tutorial. Computer, 
29(3):3 1-44, 1996. 


Lee K. Jones. Constructive approximations for neural 
networks by sigmoidal functions. Proceedings of the 
IEEE, 78(10):1586—1589, 1990. 


Rudolf E. Kalman. A new approach to linear filtering and 
prediction problems. Transactions of the ASME, Series 
D, Journal of Basic Engineering, 82(1):34—45, 1960. 


Andrexi N. Kolmogorov. On the representation of con- 
tinuous functions of several variables by superposition of 
continuous functions of one variable and addition. Dok- 
lady Akademiia Nauk SSSR, 114(5):953-956, 1957. 


Véra Kurkova. Kolmogorov’s theorem is relevant. Neu- 
ral Computation, 3(4):617-622, 1991. 


Věra Kurkové. Kolmogorov’s theorem and multilayer 
neural networks. Neural Computation, 5(3):501-506, 
1992. 


Chuck Lam and David G. Stork. Learning network topol- 
ogy. In Michael A. Arbib, editor, The Handbook of Brain 
Theory and Neural Networks. MIT Press, Cambridge, 
MA, second edition, 2001. 


Alan Lapedes and Ron Farber. How neural nets work. 
In Dana Z. Anderson, editor, Advances in Neural Infor- 
mation Processing Systems, pages 442-456. American 
Institute of Physics, New York, 1988. 


Dar-Shyang Lee, Sargur N. Srihari, and Roger Gaborski. 
Bayesian and neural network pattern recognition: A the- 
oretical connection and empiricial results with handwrit- 
ten characters. In Ishwar K. Sethi and Anil K. Jain, ed- 
itors, Artificial Neural Networks and Statistical Pattern 
Recognition: Old and New Connections, chapter 5, pages 
89-108. North-Holland, Amsterdam, 1991. 


Kenneth Levenberg. A method for the solution of certain 
non-linear problems in least squares. Quarterly Journal 
of Applied Mathematics, Ii(2):164—168, 1944. 


Daniel S. Levine. Introduction to Neural and Cognitive 
Modeling. Lawrence Erlbaum Associates, Hillsdale, NJ, 
1991. 


Richard Lippmann. An introduction to computing with 
neural nets. IEEE ASSP Magazine, pages 4-22, April 
1987. 


David Lowe and Andrew R. Webb. Optimized feature 
extraction and the Bayes decision in feed-forward clas- 
sifier networks. JEEE Transactions on Pattern Analysis 
and Machine Intelligence, PAMI-13(4):355-364, 1991. 


Donald W. Marquardt. An algorithm for least-squares es- 
timation of non-linear parameters. Journal of the Society 

for Industrial and Applied Mathematics, 11(2):431-441, 
1963. 





282 


[51] Warren S. McCulloch and Walter Pitts. A logical cal- 
culus of ideas imminent in nervous activity. Bulletin of 
Mathematical Biophysics, 5:115—-133, 1943. 


[52] John M. McInerny, Karen G. Haines, Steve Biafore, and 
Robert Hecht-Nielsen. Back propagation error surfaces 
can have local minima. In International Joint Confer- 
ence on Neural Networks (IJCNN), volume 2, page 627. 
IEEE, New York, 1989. 


[53] Marvin L. Minsky and Seymour A. Papert. Perceptrons: 
An Introduction to Computational Geometry. MIT Press, 
Cambridge, MA, 1969. 

[54] Hermann Ney. On the probabilistic interpretation of neu- 
ral network classifiers and discriminative training crite- 
ria. IEEE Transactions on Pattern Analysis and Machine 
Intelligence, PAMI-17(2): 107-119, 1995. 


[55] David B. Parker. Learning logic. Technical Report S81- 
64, File 1, Stanford University Office of Technology Li- 
censing, 1982. 

[56] David B. Parker. Learning logic. Technical Report TR- 
47, MIT Center for Research in Computational Eco- 
nomics and Management Science, 1985. 


[57] Fernando Pineda. Recurrent backpropagation and the dy- 
namical approach to adaptive neural computation. Neu- 
ral Computation, 1(2):161—172, 1989. 


[58] Walter Pitts and Warren S. McCulloch. How we know 
universals: The perception of auditory and visual forms. 
Bulletin of Mathematical Biophysics, 9:127-147, 1947. 


[59] Tomaso Poggio and Federico Girosi. Regularization al- 
gorithms for learning that are equivalent to multilayer 
networks. Science, 247(4945):978-982, 1990. 

[60] Russell Reed. Pruning algorithms—a survey. JEEE 
Transactions on Neural Networks, TNN-4(5):740—747, 
1993. 

[61} Russell D. Reed and Roberg J. Marks II. Neural 
Smithing: Supervised Learning in Feedforward Artificial 
Neural Networks. MIT Press, Cambridge, MA, 1999. 


[62] Michael D. Richard and Richard P. Lippmann. Neural 
network classifiers estimate Bayesian a-posteriori prob- 
abilities. Neural Computation, 3(4):461-483, 1991. 


[63] Brian D. Ripley. Pattern Recognition and Neural Net- 
works. Cambridge University Press, Cambridge, UK, 
1996. 


[64] Frank Rosenblatt. The Perceptron: A probabilistic model 
for information storage and organization in the brain. 
Psychological Review, 65(6):386—408, 1958. 


[65] Frank Rosenblatt. Principles of Neurodynamics. Spartan 
Books, Washington, DC, 1962. 


{66] Dennis W. Ruck, Steven K. Rogers, Matthew Kabrisky, 
Mark E. Oxley, and Bruce W. Suter. The multilayer Per- 
ceptron as an approximation to a Bayes optimal discrim- 
inant function. JEEE Transactions on Neural Networks, 
TNN-1(4):296--298, 1990. 


[67] David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. 
Williams. Learning internal representations by back- 
propagating errors. Nature, 323(99):533-536, 1986. 





= #6 


[68] David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. 
Williams. Learning internal representations by error 
propagation. In David E. Rumelhart, James L. McClel- 
land, and the PDP Research Group, editors, Parallel Dis- 
tributed Processing, volume 1, chapter 8, pages 318- 
362. MIT Press, Cambridge, MA, 1986. 


[69] Oliver G. Selfridge. Pandemonium: A paradigm for 
learning. In Mechanisation of Thought Processes: Pro- 
ceedings of a Symposium held at the National Physical 
Laboratory, pages 513-526, London, 1958. HMSO. 


[70] Oliver G. Selfridge and Ulrich Neisser. Pattern recog- 
nition by machine. Scientific American, 203(2):60-68, 
1960. 


[71] Ishwar K. Sethi and Anil K. Jain, editors. Artificial Neu- 
ral Networks and Statistical Pattern Recognition: Old 
and New Connections. North-Holland, Amsterdam, The 
Netherlands, 1991. 


[72] S:canne Sommer and Richard M. Huggins. Variables 
selection using the Wald test and a robust CP. Applied 
Statistics, 45(1): 15-29, 1996. 

[73] Achim Stahlberger and Martin Riedmiller. Fast network 
pruning and feature extraction using the unit-OBS al- 
gorithm. In Michael C. Mozer, Michael I. Jordan, and 
Thomas Petsche, editors, Advances in Neural Informa- 
tion Processing Systems, volume 9, pages 655-661. MIT 
Press, Cambridge, MA, 1997, 

[74] David G. Stork. Determination of symmetry and phase 


in human visual response functions: Theory and Ex- 
periment. Ph.D. thesis, University of Maryland, College 


Park, MD, 1984. 

[75] David G. Stork. Is backpropagation biologically plausi- 
bie? In Proceedings of the International Joint Confer- 
ence on Neural Networks (IJCNN), pages Il-241-246. 
IEEE, New York, 1989. 

[76] David G. Stork and James D. Allen. How to solve the | 
n-bit parity problem with two hidden units. Neural Net- ` 
works, 5(6):923-926, 1992. 

[77] David G. Stork and James D. Allen. How to solve the 
n-bit encoder problem with just one hidden unit. Neuro- 
computing, 5(3):141-143, 1993. 

[78] David G. Stork and John Z. Levinson. Receptive fields 
and the optimal stimulus. Science, 216(4542):204—205, 
1982. 

[79] Alan M. Turing. Intelligent machinery. In Darrell C. 
Ince, editor, Collected Works of A. M. Turing: Mechan- 
ical Intelligence. Elsevier Science Publishers, Amster- 
dam, The Netherlands, 1992. 

[80] Abraham Wald. Tests of statistical hypotheses concern- 
ing several parameters when the number of observations 
is large. Transactions of the American Mathematical So- 
ciety, 54(3):426—482, 1943. 

[81] Abraham Wald. Statistical Decision Functions. Wiley, 
New York, 1950. 


[82] Andreas S. Weigend, David E. Rumelhart, and 
Bernardo A. Huberman. Generalization by weight- 
elimination with application to forecasting. In Richard P. 
Lippmann, John E. Moody, and David S. Touretzky, ed- 





多 层 神 经 网 络 oo 





283 





itors, Advances in Neural Information Processing Sys- 
tems, volume 3, pages 875-882. Morgan Kaufmann, San 
Mateo, CA, 1991. 


Paul John Werbos. Beyond Regression: New Tools for 
Prediction and Analysis in the Behavioral Sciences. 
Ph.D. thesis, Harvard University, Cambridge, MA, 1974. 
Paul John Werbos. The Roots of Backpropagation: From 
Ordered Derivatives to Neural Networks and Political 
Forecasting. Wiley, New York, 1994. 

[85] Halbert L. White, Jr. Learning in artifical neural net- 
works: A statistical perspective. Neural Computation, 


[83] 


[84 


a | 


[86] 


[87 


[88 


] 


Nt 


3(3):425-464, 1989, 


Bernard Widrow. 30 years of adaptive neural networks: 
Perceptron, Madaline, and Backpropagation. Proceed- 
ings of IEEE, 78(9):1415—1452, 1990. 

Bernard Widrow and Marcian E. Hoff, Jr. Adaptive 
switching circuits. 1/960 IRE WESCON Convention 
Record, pages 96-104, 1960. 


Bernard Widrow and Samuel D. Stearns, editors. Adap- 347 
tive Signal Processing. Prentice-Hall, Englewood Cliffs, ( 
NJ, 1985. 349 





350] 


随机 万 法 





7.1 3B 


学 习 在 构造 模式 分 类 器 中 起 着 中 心 的 作用 。 正 如 我 们 前 面 看 到 的 那样 ,通常 的 做 法 是 , 首 
先 假设 一 个 单 参数 或 多 参数 的 模型 ,然后 根据 训练 样本 来 估计 各 参数 的 取 值 。 当 模型 相当 简 
单 并 且 低 维 时 ,可 以 采用 解析 的 方法 ,比如 求 函数 导数 ,来 显 式 求解 方程 以 获得 最 优 参数 。 如 
果 模 型 相对 复杂 一 些 , 则 可 以 通过 计算 局 部 的 导数 而 采用 梯度 下 降 算法 来 解 ,比如 神经 网 络 或 
其 他 一 些 最 大 似 然 方法 。 而 对 于 高 维和 复杂 的 模型 ,由 于 经 常 出 现 许多 局 部 极 值 , 这 时 必须 利 
用 各 种 处 理 技巧 ,比如 在 多 个 不 同 的 起 始点 展开 (多 次 ) 搜 索 , 并 且 采 用 某 种 置信 度 来 确认 一 个 
可 接受 的 局 部 极 值 点 已 被 发 现 。 

当 模 型 变 得 越发 复杂 后 ,上 述 方法 也 越 来 越 不 尽 人 意 。 一 种 天 真 的 处 理 方法 , 即 在 整个 可 
行 参数 空间 内 穷 举 搜 索 , 将 会 很 快 失去 控制 ,因而 对 现实 问题 完全 不 可 行 。 如 果 问 题 越 复 林 ， 
或 者 先 验 知识 和 训练 样本 越 少 ,我 们 对 能 够 自动 搜索 可 行 解 的 复杂 搜索 算法 的 依赖 性 就 越 强 ，。 
本 章 中 我 们 将 研究 参数 搜索 的 随机 方法 ,其 中 随机 性 起 了 关键 的 作用 。 通 常 的 做 法 是 使 搜索 
朝 着 预期 最 优 解 的 区 域 前 进 , 同 时 允许 一 定 程 度 的 随机 挑动 ,以 利于 发 现 好 的 解 。 

本 章 将 主要 研究 两 大 类 通用 随机 搜索 方法 。 其 一 ,以 Boltzmann 学 习 机 作为 范例 ,是 一 种 
来 自 物 理学 (更 明确 地 说 ,是 统计 力学 ) 的 概念 和 技术 。 其 二 ,以 遗传 算法 为 范例 , 源 自生 物 学 
的 若干 概念 ,特别 是 有 关 进 化 的 数学 理论 。 前 者 已 形成 高 度 发 展 和 严格 的 理论 ,并 且 在 模式 识 
别 中 取得 很 多 成 功 , 因 而 将 花 主要 的 篇 幅 讲 述 。 后 者 则 更 具 启 发 性 和 灵活 性 , 当 计 算 资 源 充 足 
时 ,不 失 是 一 个 很 吸引 人 的 方法 。 

我 们 将 利用 一 些 足够 简单 的 ,完全 可 以 采用 标准 梯度 算法 来 求解 的 例子 ,来 介绍 这 些 技 
术 。 虽 然 这 样 ,值得 再 次 强调 的 是 :这 些 随 机 方法 最 适合 求解 非常 复杂 (常规 方法 难以 奏效 的 ) 
的 问题 。 不 过 ,由 于 这 些 方法 计算 代价 很 大 ,如 果 没 有 计算 机 的 帮助 ,几乎 没有 任何 用 处 。 


7.2 随机 搜索 


我 们 先 从 非常 重要 和 具有 代表 性 的 二 次 型 优化 问题 谈 起 。 虽 然 二 次 型 的 优化 问题 也 存在 
解析 解 ,但 是 当 问 题 规模 变 大 时 ,解析 解 的 性 能 并 不 理想 。 因 此 ,在 这 里 ,我 们 将 集中 研究 在 多 
个 候选 解 中 搜索 最 优 解 的 方法 ,特别 是 那些 对 模式 识别 有 用 的 随机 搜索 方法 。 

假设 给 定 多 个 变量 s, ,i 一 1,…, NN, 其 中 每 个 变量 的 数值 都 取 两 个 离散 值 之 一 。 为 简单 起 
见 , 记 它们 为 士 1。 优 化 问题 是 这 样 描述 的 :确定 NN 个;; 的 合适 取 值 ,使 下 述 代 价 函 数 或 能 量 


.函数 最 小 : 


N 


l 
E = -5 ) wsis) (1) 


i, j=l 


Hho LA 是 对 称 的 , 取 值 可 正 可 负 。 可 以 令 到 自身 的 反馈 权 为 零 ( 即 ws 一 0, HWS 
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的 wi 只 不 过 在 EF 上 增加 一 个 与 s; 无 关 的 常数 ,并 不 影响 问题 的 本 质 。 这 个 优化 回 题 能 用 网 络 
和 节点 的 方式 图 示 , 其 中 的 双向 链 ( 或 互 连 ) 对 应 于 权重 。 图 7-1 就 是 这 样 一 个 网 络 ,其 中 的 记 


号 在 下 面 将 被 用 到 。 
可 见 节 
© © © © 


| /i ol SO | 
ip 有 if E ce On T1 > a 





可 见 节 点 


图 7-1 式 (1) 这 类 优化 问题 可 视 作 节点 或 单元 网 络 的 形式 ,其 中 每 个 节点 可 取 值 ;一 十 1 或 $s 一 一 1。 
每 一 对 节点 间 有 一 个 双向 互 连 权 重 W ,如 果 两 节点 间 权 重 为 0, 就 不 再 画 出 (由 于 我 们 讨论 的 网 络 可 以 
任意 互 连 , 所 以 不 存在 像 多 层 神经 元 网 络 那 种 分 层 结构 )。 最 优化 就 是 搜索 一 个 使 式 (1) 中 的 能 最 最 小 
的 构 型 ( 即 所 有 s; 的 状态 值 )。 在 神经 网 络 中 以 前 我 们 习惯 在 节点 的 圆圈 里 写 消 数值 ,而 此 处 所 谓 的 Bo- 
ltzmann 网 络 中 标 出 的 是 节点 状态 。 整 个 网 络 的 构 型 用 一 个 整数 7 表示 ,因为 图 中 有 17 个 二 元 节点 ,所 
以 0 和 < 拓 2”。 当 上 述 网 络 用 于 模式 识别 时 ,用 于 输入 和 输出 的 节点 称 为 可 见 节点 (或 显 节点 ) ,而 其 他 
的 是 隐 节 点 。 可 见 节 点 和 隐 节 点 的 状态 分 别 用 < 和 表示 。 在 图 中 有 OS a2" 08 <2’ 


这 个 网 络 存在 一 个 物理 学 上 的 类 比 , 并 且 这 将 指导 我 们 后 面 的 求解 的 工作 。 想 像 一 下 该 
网 络 代表 N 个 物理 磁体 ,每 个 磁体 的 北极 要 么 指 了 同上 部 4 一 十 1) ,要么 指 同 下 部 (5; 二 一 1)。 
凡是 描述 磁体 间 的 物理 分 离 度 的 函数 。 每 对 磁体 间 存 在 一 个 交互 作用 能 量 , 即 


E, = 一 方 wssis;, 是 由 它们 各 自 的 状态 .分离 情况 以 及 其 他 物理 特性 决定 的 。 系 统 的 总 能 量 就 


是 这 些 交互 能 量 的 求 和 ,如 式 (1) 所 示 。 优 化 的 任务 就 是 在 由 这 些 磁体 组 成 的 集团 的 所 有 构 型 
(configuration) 当 中 寻找 到 最 稳定 的 构 型 ,也 就 是 对 应 于 最 低能 量 的 那个 构 型 。 诚 然 ,一 般 的 
优化 问题 存在 于 各 种 应 用 场合 (虽然 其 中 的 权重 未 必 有 物理 含义 ” ) ,我 们 尤其 感 兴趣 的 是 它 
们 在 学 习 问 题 中 的 应 用 。 

除非 是 很 小 的 问题 或 极 少 的 互 连 , 否 则 不 可 能 直接 求解 有 N A s: 的 能 量 最 小 化 问题 , 因 
为 其 构 型 数目 高 达 2~ (习题 1)。 我 们 可 能 试图 用 一 个 “贪心 "算法 搜索 最 优 的 构 型 。 做 法 是 ， 
先 随机 选取 每 个 节点 的 起 始 状 态 , 然 后 顺序 考查 每 个 节点 ,计算 与 之 相 联 系 的 s,s = +1 状态 和 
s= 一 1 状态 的 能 量 ,选取 能 够 降低 能 量 的 状态 迁移 。 这 种 判断 只 用 到 了 直接 与 之 相连 的 具 
有 非 零 权重 的 邻接 节点 。 但 是 ,这 种 “贪心 "搜索 算法 成 功 的 可 能 性 极 小 ,因为 系统 常常 会 陷 人 
局 部 能 量 极 小 处 或 者 根本 不 收敛 (参见 上 机 练习 1) ,必须 考虑 采用 其 他 的 搜索 方法 。 





O 一 般 化 的 能 量 隧 数 , 又 称 为 Lyapunov 函数 或 目标 肾 数 ,也 可 应 用 于 各 种 不 同 的 问题 领域 。 
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7.2.1 模拟 退火 

在 物理 中 ,让 一 个 多 磁体 系统 或 合金 中 的 多 原子 系统 到 达 最 低能 量 的 方法 称 为 “退火 ” 
(annealing)。 在 物理 学 上 的 退火 中 ,系统 首先 被 加 热 , 保 证 其 每 一 组 份 (磁体 ) 具 有 充分 的 随机 
性 。 这 样 做 的 结果 是 ,每 个 变量 都 可 以 临时 地 取 某 个 能 量 意义 上 不 稳定 的 值 。 系 统 因而 可 以 
唉 迁 到 寿 干 具有 和 较 高 能 量 的 状态 。 退 火 过 程 中 ,系统 温度 缓慢 的 逐步 降低 ,直到 零 温度 态 。 此 
时 不 再 有 随机 变动 ,系统 被 松弛 到 一 个 很 低 的 能 量 构 型 ,完成 退火 。 这 种 退火 操作 相当 有 效 ， 
因为 即使 在 中 等 程度 的 高 温 下 系统 也 能 逐渐 朝 着 总 体能 量 最 低 的 构 型 区 前 进 , 因 而 发 现 最 优 
构 型 的 可 能 性 很 大 。 随 着 温度 的 下 降 , 系 统 发 现 全 局 最 小 能 量 的 概率 在 增加 。 模 拟 退 火 方法 
适应 于 各 种 能 量 函 数 ( 或 能 量 “ 地 形 曲 面 ”) 的 情况 ,虽然 偶尔 也 会 遇 到 类 似 图 7-2 示 出 的 “高 尔 
夫 球 场 那 样 的 成 功 概率 很 小 的 病态 情形 。 好 在 ,在 学 习 问 题 中 通常 很 少 遇 到 这 种 病态 情况 





图 7-2 左边 的 能 量 画 数 或 能 量 地 形 很 适合 用 模拟 退火 之 类 的 优化 求解 方法 。 这 类 方法 利用 了 随 
机 性 ,在 一 控制 参数 (或 温度 ) 的 控制 下 能 避免 陷 人 局 部 极 小 因而 能 发 现 全 局 最 小 点 ,就 好 像 有 一 
个 球 一 边 震 动 ,一 边 在 该 地 形 曲 面 上 滚动 一 样 。 右 边 的 病态 的 "高尔夫 球场 "类 型 , 则 很 不 适合 模 
拟 退 火 求解 ,因为 其 能 量 最 小 点 的 区 域 太 小 了 ,而 且 被 一 些 局 部 能 量 高 峰 阻 隔 。 这 种 构 型 空间 的 
问题 ,我 们 还 将 在 图 7-6 中 做 更 清晰 的 解释 


7.2.2 Boltzmann 因子 
物理 学 已 经 充分 研究 了 由 大 量 的 交互 作用 的 组 分 (元 素 ) 组 成 的 物理 体系 在 温度 全 时 的 
统计 特性 ， 例 如 气体 中 的 大 量 分 子 集合 或 固体 中 的 磁性 原子 。 其 中 ,只 需 很 少 的 自然 假定 就 
可 以 得 到 的 一 个 关键 结论 是 :系统 位 于 一 个 特定 (离散 ) 构 型 7 具有 能 量 E) 的 概率 由 
e-Ey/T 


Z(T) 
给 出 ,其 中 Z(T) 是 一 个 归 一 化 常数 。 式 中 的 分 子 部 分 称 为 “Boltzmann AF”, 而 分 母 部 分 是 
所 谓 的 “ 配 分 函数 ”(partition function), €$ TF Boltzmann 因子 对 所 有 构 型 的 求 和 

2 = rete" m 


t 


F 
其 作用 是 保证 公式 (2) 确 实 是 一 个 真正 的 概率 ” . 
由 于 总 的 构 型 数目 高 达 2" ,对 实际 物理 系统 来 说 ,只 有 非常 简单 系统 的 Z(T) 才能 计算 
出 。 幸 运 的 是 ,下面 我 们 将 看 到 ,模拟 退火 算法 并 不 需要 计算 配 分 函数 。 


O 在 物理 系统 的 Boltzmann 因子 中 还 有 一 个 所 谓 的 “Boltzmann 常数 ”, 它 可 以 将 温度 转换 为 能 量 , 但 在 这 里 我 们 可 以 
通过 规格 化 温度 参数 而 省 略 这 个 过 程 。 
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Boltzmann 因子 在 我 们 的 讨论 中 具有 根本 的 重要 性 ,所 以 完全 值得 多 费 些 篇 幅 来 讲解 它 . 
至 少 用 一 种 非 正式 的 讲解 方式 。 考 虑 一 种 有 所 区 别 的 但 又 有 关系 的 系统 :在 一 均匀 外 部 磁场 
作用 下 的 由 大 量 无 交互 作用 磁体 ( 即 它们 之 间 无 互 连 权 ) 组 成 的 系统 。 如 果 其 中 一 个 磁体 指向 
上 方 ,s; 二 十 1( 即 与 外 部 磁场 同方 向 ), 则 它 对 整个 系统 贡献 一 点 正 的 能 量 。 如 有 果 该 磁体 指 问 
下 方 , 则 贡献 一 小 负 能 量 。 于 是 ,这 个 磁体 集团 的 总 能 量 就 正比 于 上 方向 磁体 个 数 。 系 统 具 有 
特定 能 量 的 概率 因而 与 具有 这 个 能 量 的 构 型 的 个 数 有 关 。 考 虑 能 量 最 高 的 那 种 构 性 , 即 所 有 


N 
磁体 都 朝 上 。 具 有 这 种 能 量 的 构 型 方式 只 有 一 种 , 即 ( 、) 一 1。 次 高 能 量 的 构 型 是 指 仅 有 一 个 
N 
磁体 指向 下 方 而 其 他 都 朝 上 的 情况 ,于 是 共有 ( )=N 种 构 型 。 再 低 一 些 能 量 , 则 应 该 有 两 


N 
个 磁体 朝 下 。 这 种 构 型 的 数目 是 (。] 一 NCN 一 1)/2, 依 次 类 推 。 这 样 ,可 以 看 出 , 随 着 能 量 的 


提高 ,可 能 的 构 型 数目 是 呈 指 数 下 降 。 由 于 磁体 间 统 计 独 立 , 当 N 很 大 时 ,在 能 量 巨 处 发 现 构 
型 的 可 能 性 也 指数 下 降 ( 和 参见 习题 7) 。 总 的 来 说 , 式 (2) 中 Boltzmann 因子 的 指数 项 来 源 于 下 
述 事实 , 即 随 着 温度 的 上 升 ,允许 构 型 的 数目 以 指数 减少 。 而 且 ,大 致 来 说 ,高 温 给 了 系统 更 多 
的 能 量 ,使 出 现 高 能 量 构 型 的 概率 增 大 。 这 也 定性 地 解释 了 Boltzmann 因子 中 概率 对 T H4 
依 关系 :在 高 温 时 ,所 有 构 型 的 概率 分 布 大 致 平均 ,而 低温 时 ,系统 则 集中 分 布 在 具有 最 低能 量 
的 构 型 周围 。 

现在 我 们 开始 考虑 磁体 之 间 存 在 表示 交互 作用 的 互 连 权 的 情况 ,问题 稍稍 有 点 儿 复 杂 。 
现在 ,每 个 磁体 朝 上 或 朝 下 所 涉及 的 能 量 将 与 其 他 磁体 的 状态 有 关 。 虽 然 如 此 , 当 N 很 大 时 ， 
构 型 数目 与 构 型 能 量 之 间 的 指数 下 降 关 系 仍 然 保 持 不 变 ,正如 式 (2) 中 Boltzmann 因子 那样 。 
模拟 退火 (simulated annealing) 算 法 

上 述 讨 论 和 物理 类 比 为 一 般 性 的 优化 问题 提供 了 下 述 寻 找 最 优 构 型 的 “模拟 退火 ”算法 。 
首先 将 网 络 随 机 初始 化 ,并 设 定 一 个 高 的 初始 “温度 ”T(1) (当然 ,在 仿真 中 醋 仅 仪 是 一 个 控制 
随机 程度 的 参数 ,并 非 真 正 的 物理 温度 )。 然 后 ,随机 选择 一 个 节点 i, 假定 其 现在 的 状态 是 
s= 十 1, 计 算 在 这 种 构 型 下 系统 总 能 量 E ,接着 ,上 表 计 算 如 果 改 变 到 候选 状态 , 即 s; 二 一 1 


时 ， 对 应 的 系统 总 能 量 E;。 如 果 候 选 状态 的 能 量 E <E, , 则 接受 这 次 状态 改变 。 如 有 果 人 能量 
EE 反而 更 高 , 则 按照 如 下 概率 接受 这 个 状态 改变 : 
eSEab/T (4) 


其 中 AE, 二 Es 一 E,。。 这 个 偶尔 能 接受 能 量 增 加 的 状态 改变 的 特点 对 模拟 退火 算法 的 成 功 起 
着 关键 作用 ,并 且 使 之 有 别 于 常规 的 简单 梯度 下 降 算法 或 “贪心 "算法 。 

模拟 退火 算法 主要 的 优势 在 于 它 使 系统 有 可 能 从 局 部 极 小 处 跳出 。 例 如 , 当 温 度 非常 高 
时 ,每 个 构 型 都 有 几乎 相同 的 Boltzmann 因子 , 即 e = se 。 如 果 用 配 分 苯 数 归 一 化 ,可 见 每 
个 构 型 出 现 机 会 几乎 均等 ,这 表明 每 个 节点 取 十 1 或 一 1 的 可 能 性 相同 (习题 6) 。 

算法 持续 的 多 次 随机 轮 询 ( 选 择 并 测试 ) 节 氮 , 并 根据 以 上 方式 进行 状态 改变 。 然 后 a 
将 温度 下 降 ,重复 下 一 轮 操 作 。 现 在 ,根据 式 (4) ,接受 能 量 增加 的 候选 状态 迁移 的 概率 也 逐步 
下 降 。 算 法 继续 进行 ,直到 每 个 节点 都 被 访问 多 次 后 ,温度 进一步 和 下降 ,查询 过 程 也 重复 进行 。 
当 温 度 非 常 低 时 ,接受 能 量 增加 的 状态 迁移 的 概率 非常 小 ,此 时 的 系统 行为 就 像 信 心算 法 一 
样 。 模 拟 退 火 算法 终止 于 温度 很 低 的 情况 (接近 于 0 温度 )。 如 果 冷 却 过 程 充分 的 慢 , 那 么 系 
统 落 在 最 低能 量 状态 的 概率 也 将 非常 的 大 ,并 且 有 望 是 全 局 最 小 扩 。 
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态 。 而 所 有 其 他 节点 都 保持 不 变 , 它 们 对 总 体能 量 的 贡献 也 不 变 。 

ON: 是 与 节点 i 直接 相连 具有 非 零 权 值 的 节点 集合 。 如 果 网 络 是 全 互 连 的 ,并 且 任 意 权 
都 非 零 , 则 一 共有 N 一 1 个 这 样 的 节点 。 令 Rand [0,1) 表明 比 工 小 的 的 随机 正 实数 。 利 用 这 
些 记号 ,随机 模拟 退火 算法 列表 如 下 : 


算法 1 (随机 模拟 退火 ) 


l begin initialize T( k), kmaxss:i Cd) w; 27 一 1 人 
2 大 < 0 

3 do k<k+1 

4 do 随机 地 选择 点 i; 假 设 它 的 状态 为 s: 

5 EFE,<——1/22N: wsis; 

6 E,.<~—E, 

7 if E.<E, 

8 then s;<-— s; 

9 else if e7575 TP > Rand[0,1) 
10 then Si< 一 3i 

11 until A TRARAL 





12 until k= kmax 或 停止 准则 满足 
13 return FE,s,, i=] ,elN 
14 end 


由 于 一 次 只 轮 询 一 个 节点 ,所 以 有 时 也 称 之 为 串 行 模拟 退火 。 注 意 第 5 行 的 EE 只 同 与 被 
轮 询 节点 相连 的 节点 有 关 ,而 与 式 (1) 的 已 有 所 不 同 。 但 这 样 做 并 没有 什么 不 妥 , 因 为 第 9 行 
表明 仅仅 是 能 量 的 差 确定 了 接受 概率 。 

本 算法 有 几 个 环节 值得 仔细 考虑 一 -尤其 是 起 始 温度 .温度 下 降 的 速率 、 终 止 温度 和 终止 
准则 

函数 T(k) (这 里 ,k 是 迭代 的 次 数 ) 被 称 为 冷却 进度 或 退火 进度 。T(1) 应 该 足够 高 ,以 使 
得 全 部 构 型 有 大 致 一 样 的 概率 。 这 就 要 求 初始 温度 应 该 比 不 同 构 型 之 间 的 最 大 的 能 量 差 还 要 
大 。 如 此 高 的 温度 能 保证 系统 能 自由 迁移 到 任何 需要 的 构 型 上 。 因 为 初始 构 型 是 随机 确定 
的 ,因而 往往 远离 最 优 构 型 。 温 度 应 该 十 分 缓慢 地 逐渐 地 下 降 ,使 系统 能 够 到 达 状 态 空间 的 任 
何 区 域 ,同时 又 避免 陷入 不 希望 的 局 部 极 小 处 。 关 于 这 一 点 以 后 还 要 仔细 讨论 。 最 少 的 情况 
下 ,要 求 退火 过 程 应 有 N/2 次 跃迁 ,因为 一 个 全 局 最 优 与 一 个 任意 构 型 的 差异 至 少 有 这 么 多 
步 (实际 当中 ,需要 轮 询 的 次 数 比 这 个 数字 可 能 要 高 好 几 个 数量 级 )。 退 火 过 程 的 最 终 温度 应 
该 要 求 足够 地 低 ( 或 者 等 价 地 说 , kw 要 充分 地 大 ,或 者 停止 准则 的 设 定 已 经 很 合理 ) ,这 样 系 
统 从 全 局 最 小 处 偶然 跳出 的 概率 小 的 可 以 忽略 。 而 且 , 我 们 可 能 需要 记录 当前 这 次 搜索 所 找 
到 的 最 优 构 型 , 并 且 以 后 可 能 要 用 到 它 一 一 当 这 次 随机 搜索 最 终 返 回 的 构 型 不 够 好 时 一 一 这 
个 方法 我 们 在 7. 3. 4 节 还 将 再 次 谈 到 。 图 7-3 显示 了 在 退火 的 初期 ,此 时 温度 很 高 ,系统 可 搜 
索 很 大 范围 的 构 型 。 接 着 随 着 温度 的 降低 ,只 有 那些 “接近 ”全 局 最 小 的 状态 才 被 检验 。 整 个 
退火 过 程 中 ,每 次 迁移 都 对 应 一 个 单元 的 状态 改变 。 

一 种 典型 的 退火 进度 利用 了 公式 TC(k 十 1)= 二 cT(Kk) ,其 中 0 二 c 二 1。 如 果 不 考虑 计算 资 
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源 问题 的 话 ,初始 温度 值 和 ko 都 适 宜 设 得 高 一 些 。 实 际 问题 表明 ,处 于 0. 8< e< 0.99 之 
间 的 c 值 可 以 工作 得 很 好 。 在 实践 中 ,该 算法 运行 较 慢 , 常 需要 很 多 次 选 代 , 并 且 需 要 多 次 访 
间 节 点 。 尽 管 如 此 ,除非 规模 极 小 的 问题 ,该 算 法 还 是 要 比 穷 举 搜索 快 (习题 5)。 我 们 将 在 
7. 3.4 节 介绍 有 关 学 习 参数 设 定 时 再 次 讨论 这 个 问题 。 


tx 
z z 
N 开始 
E 
结束 > 





图 7-3 ”随机 模拟 退火 (算法 1) 利 用 随机 性 ,在 控制 参数 (或 “温度 ”)T(K) 的 控制 下 在 一 离散 空间 中 
寻找 能 量 极 小 。 图 中 共有 N=6 个 变量 。 于 是 一 共有 2 = 64 种 构 型 。 分 别 用 “十 "和 “一 "符号 标记 
的 构 型 空间 示 于 图 的 下 方 。 某 次 随机 选择 的 权重 下 根据 式 (1) 得 出 的 能 量 显 示 在 图 中 右边 。 每 次 系 
统 跃 迁 对 应 于 一 个 s 的 变动 (图 中 的 各 个 构 型 的 排列 方式 使 得 相 邻 位 置 只 有 -- 个 节点 状态 发 生 改 
变 。 当 然 , 实 际 中 单一 节点 状态 改变 并 不 按 图 中 的 顺序 ), 因 为 系统 总 能 量 不 会 因为 全 局 的 节点 状态 
都 反 号 而 改变 ,所 以 存在 两 个 全局" 极 小 。 左 上 角 的 图 形 示 出 了 退火 进度 , 即 温度 随 着 迭代 次 数 大 的 
增加 而 下 降 的 形态 。 中 上 部 的 匈 示 出 了 采用 算法 1 的 一 次 构 型 搜索 轨迹 。 图 中 的 红颜 色 的 轨迹 表 
示 对 应 能 量 上 升 的 跃迁 ,而 深 轨 迹 对 应 能 量 下 降 。 随 着 退火 的 进展 .能 量 上 升 的 几率 越 来 越 小 。 右 
边 的 曲线 示 出 了 总 能 量 下 降 至 全 局 极 小 的 过 程 


图 7-3 显示 的 是 构 型 空间 中 的 一 条 搜索 轨迹 图 。 另 一 个 更 有 用 的 特性 图 是 随 着 退火 的 逐渐 
进行 ,各 个 构 型 的 概率 分 布 特性 。 图 7-4 显示 了 这 种 概率 分 布 在 退火 中 4 种 不 同 温度 下 的 形态 。 
特别 要 注意 的 时 , 当 最 终 温度 很 低 时 ,概率 分 布 都 集中 在 全 局 最 小 处 ,而 这 正 是 我 们 所 期 望 的 。 
虽然 图 中 表明 在 温度 为 正 时 所 有 状态 都 存在 正 的 访问 概率 ,但 是 我 们 必须 认识 到 实际 中 每 次 退 
火 从 代 过 程 中 只 能 访问 其 中 很 少 一 部 分 构 型 。 简 而 言 之 ,尤其 对 于 大 问题 ,在 大 多 数 情 况 下 并 不 
需要 访问 所 有 的 构 型 。 也 正 因为 这 个 原因 , 退火 算法 要 比 穷人 举 搜 索 更 有 效 。 

7.2.3 确定 性 模拟 退火 

随机 模拟 退火 运行 很 慢 ,部 分 原因 在 于 在 其 中 搜索 的 全 部 的 构 型 空间 的 离散 本 质 , 也 就 是 
说 , 构 型 空间 是 一 个 六 维 超 立方 体 。 每 一 次 搜索 轨迹 都 只 能 沿 着 超 立 方 体 的 . -条 边 ,状态 只 
能 落 在 超 立 方 体 的 顶点 上 ,因此 失去 了 完整 的 梯度 信息 。 而 梯度 信息 是 可 以 用 超 立方 体内 部 
的 模拟 (连续 ) 状 态 值 提 供 的 。 另 外 一 种 运行 更 快 的 可 选 方案 是 :在 搜索 中 允许 节点 取 模 拟 状 
态 值 ,而 在 搜索 的 终止 时 ,这 些 状态 值 被 强制 到 最 优化 所 需 的 、= 土 1]。 这 种 确定 性 的 退火 方 
法 也 源 自 物理 学 的 类 比 。 考 虑 单一 的 节点 区 一 个 磁体 ) ,与 其 他 几 个 节点 相连 。 其 中 ,每 个 节 
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所 都 对 i 施加 一 个 力 使 它 朝 上 或 朝 下 。 在 确定 性 退火 中 ,把 所 有 这 些 外 力 全 部 加 起 来 就 得 到 8 
的 外 力 的 模拟 值 。 如 果 该 值 是 很 大 的 正 值 , 则 强制 * 兰 二 1; 如果 是 很 大 的 负 值 , 则 令 ;之 一 1; 但 
在 一 般 情况 下 ,通常 s 取 介 于 其 中 间 的 值 。 这 个 模拟 的 s; 值 同 样 依 赖 于 温度 。 在 高 温 时 (大 的 随 
机 性 ) 即 使 很 大 的 朝 上 的 力也 不 能 确保 s; 二 十 1, 而 当 温 度 很 低 时 ,很 小 的 外 力 就 可 以 使 ;= 十 1 
或 一 1。 如 果 令 4 二 2; ws 表示 施加 在 节点 i 上 的 外 力 , 则 更 新 后 的 状态 值 成 为 

5; = Fb T) = tanh{l; /T] (5) 
PY 


度 下 构 型 y 的 a 
HZP CY) HA tk it \ | 
(数据 估计 取 自 


多 次 仿真 运行 ， \ | 
与 理论 值 e T ; = 
于 分 接近 )。 初 
期 , 当 温 度 工 很 | 
高 时 ,各 个 构 型 
的 出 现 概率 几乎 = > 
一 样 :。 后 SR 在 
较 低 的 温度 ,分 
布 非常 集中 在 能 
量 最 小 处 附近 。 
能 量 的 数学 期 望 
ELEJO} T RE 
时 求 平 均 ), 随 着 
退火 的 进行 而 逐 
渐 地 下 降 

这 里 的 啊 应 函数 f(，,，) 有 一 个 隐 含 的 重新 规格 化 的 作用 ,如 图 7-5 所 示 。 广 义 地 看 ,确定 性 

退火 就 是 设 定 一 个 退火 进度 ,然后 在 每 一 个 温度 上 寻找 每 个 ;在 ( 热 ) 平 衡 态 的 模拟 数值 。 该 

模拟 值 只 不 过 就 是 温度 工时 离散 的 s; 的 (数学 ) 期 望 ( 即 均值 )( 参 见习 题 8)。 当 温度 很 低 时 

( 即 在 退火 终止 时 ) ,该 变量 将 取 极 限 值 土 1 ,如 图 7-5 中 的 低温 曲线 。 


Hl? 5 在 确定 性 退火 中 ,每 个 节点 的 SLUT) 
RAS Al HEA —1<s, +1 内 连续 取 ic 
值 ,其 数值 等 于 系统 中 二 值 状态 在 温度 

工 是 的 数学 期 望 。 换 句 话 说 ,用 模拟 状 

AAs, 代替 离散 状态 的 期 望 E[s;]。 令 0.5 

4 表示 与 节点 s 相连 的 所 有 其 他 节点 

的 外 力 。 正 的 外 力 越 大 ,模拟 值 s 也 接 


[7]3 


T(k) 








近 十 1, 反 之 , 负 方 向 越 大 , 越 接近 一 1。 -04 2 2 i 
表示 温度 参数 。 高 温 时 有 较 大 的 随机 

性 ,即使 很 大 的 外 力 , 也 难以 保证 ws 十 -0.5 

1 。 而 温度 低 时 随机 性 小 ,很 小 的 正 外 力 

就 使 得 ws 十 1。 在 退火 终止 时 ,节点 具 J gi 


有 数值 5 一 十 ] 或 一 一 ] 


在 连续 情形 下 考虑 能 量 地 形 曲面 将 有 指导 意义 。 正 如 式 (1) 和 图 7-6 示 出 那样 ,能 量 E 
对 其 变量 的 偏 导 数 是 线性 的 。 这 样 在 任何 平行 于 坐标 轴 的 截面 上 将 不 存在 局 部 极 小 值 。 同 
样 , 注 意 到 在 图 中 整个 能 量 体 积 之 内 并 没有 稳定 的 局 部 能 量 极 小 处 。 所 以 能 量 极 小 只 能 发 生 
在 各 个 角 点 , 即 s= t1 的 极限 值 处 ,而 这 正 是 优化 所 期 望 的 。 这 种 搜索 方法 有 时 也 称 为 “ 均 
iB K” (mean-field annealing) ,因为 每 一 个 节点 的 响应 都 决定 于 与 之 相连 的 所 有 节点 形成 的 


随机 方法 = 291 


平均 外 力 场 的 作用 。 本 质 上 来 说 ,该 方法 是 对 其 他 所 有 磁体 对 节点 i 施加 的 力 的 效应 的 一 个 
近似 ,而 忽略 了 其 之 证 点 间 的 相互 作用 以 及 它们 受 节点 i 的 反作用 力 的 影响 。 这 种 退火 被 称 
为 是 “确定 性 ”的 ,是 因为 从 原理 上 讲 , 随 着 温度 的 下 降 , 我 们 可 以 “确定 ”的 求解 出 决定 s: 的 值 
的 方程 组 。 本 算法 自身 具有 并 行 化 的 特性 ,比如 每 个 节点 s: 都 可 同步 地 确定 性 地 更 新 。 而 在 
本 质 为 串 行 的 计算 机 仿真 试验 中 ,每 次 只 可 更 新 一 个 节点 。 虽 然 访问 节点 的 次 序 可 用 伪 随 机 
数 来 确定 ,但 算法 在 原则 上 是 确定 性 的 一 一 在 搜索 中 不 存在 任何 内 在 的 随机 性 。 如 果 s; OR 
示 单 元 i 的 初始 状态 值 ,算法 描述 如 下 : 








图 7-6 如 果 状态 值 假设 是 模拟 值 (例如 均 场 退火 中 ), 式 (1) 的 能 量 道 常 是 二 次 型 ,并 且 在 边界 上 取 
极 值 二 1。 图 中 示 出 的 是 N=3 个 节点 的 任意 权 ws 全 互连网 。 因 为 总 的 能 量 曲面 是 三 维 的 ,曲面 
是 ss 的 3 种 取 值 情况 。 能 量 对 每 个 坐标 轴 方 向 都 是 线性 的 。 并 且 ,能 量 对 状态 值 的 对 称 变换 是 不 变 
的 , 即 s%** 一 %。 在 这 个 例子 中 ,全 局 最 小 值 出 现在 5 一 一 Le 一 十 1, 5 一 一 1 和 与 其 对 称 的 状态 


算法 2 (确定 性 模拟 退火 ) 
l begin initialize TOK) ,ws;:(1), 727 一 1 和 


2 k<—0 

3 do k<—k 十 1 

4 随机 地 选择 节点 i 

9 Lyx 2M: Wi Sj 

6 sit-fCl;5TCk)) 

7 until k 二 kmx 或 收敛 准则 满足 

8 return E,s;,i=1,.…,N | 
9 end 


在 实践 中 ,确定 性 退火 和 随机 退火 给 出 相似 的 解 。 对 于 大 规模 的 现实 问题 ,确定 性 退火 要 和 
快 很 多 ,有 时 可 以 快 2 一 3 个 数量 级 。 359 
模拟 退火 同样 适用 于 其 他 类 型 的 优化 问题 。 比如 ,寻找 函数 二 wsisisjsi 的 最 小 值 。 我 们 

不 准备 讨论 这 类 高 阶 问题 ,尽管 它们 也 能 成 为 学 习 的 基础 之 一 。 


7.3 Boltzmann 学 习 


为 了 进行 模式 识别 ,我 们 将 用 图 7-1 示 出 的 网 络 结构 ,并 指定 某 些 节 点 作为 输入 节点 ,而 
为 一 些 是 输出 节点 ,如 图 7-7 所 示 。 其 中 输入 节点 接受 二 值 化 的 特征 信息 ,而 输出 节点 采用 熟 
- 知 的 c 中选 1 的 方式 ,表示 输出 的 类 别 。 在 分 类 中 ,输入 节点 的 值 保 持 不 变 , 即 始终 箱 位 在 输 
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和 人 模式 的 特征 之 上 。 其 他 节点 进行 退火 处 理 , 直 到 找到 最 低能 量 态 ,也 就 是 最 可 取 的 构 型 。 分 


类 信息 于 是 可 以 从 输出 单元 的 值 中 读 出 。 当 然 ,准确 的 识别 要 求 有 恰当 的 互 连 权 重 。 这 样 ,我 
们 转 而 讨论 从 训练 中 学 习 权 重 的 方法 。 对 这 种 学 习 有 两 类 紧密 相关 的 方法 ,一 种 基于 随机 退 
火 , 而 为 一 种 则 是 确定 性 模拟 退火 ，。 


图 7-7 当 图 7-1 那样 的 网 络 用 于 学 
习 时 ,区 别 两 类 可 见 单元 是 很 重要 的 。 
Bld 个 输入 单元 和 cc 个 输出 单元 (它们 
的 作用 是 接收 外 部 特征 和 类 别 信息 )， 
当然 还 包括 对 隐 单 元 的 区 分 。 整 个 网 
络 的 状态 用 整数 7 标记 。 因 为 这 里 有 
17 个 二 值 节点 ,所 以 7 了 限制 在 0 << 
2 间 。 输 入 可 见 节 点 的 状态 用 w 表 
示 ,而 输出 可 见 节点 用 双人 (上 标 并 不 是 
值 数 , 仅 分 别 表示 输入 或 输出 )。 在 图 
中 的 情况 下 ,a 的 范围 是 0 委 w < 2%, 
d AYR OKL 2 。 隐 节点 的 状 
人 态 用 有 标记 ,其 范围 为 0 人 p<2 ~ "4 





7.3.1 可 见 状态 的 随机 Boltzmann 学 习 

在 转 问 我 们 的 中 心 ( 问 题 ) 一 一 即 从 训练 模式 中 学 习 分 类 信息 一 一 之 前 ,让 我 们 首先 考虑 
为 外 一 种 学 习 问 题 。 也 就 是 说 ,假定 全 部 可 见 单元 的 概率 分 布 已 知 为 Q(a) ,现在 要 求实 际 经 
由 随机 仿真 所 获得 的 对 于 给 定 样 本 集合 的 概率 分 布 Pla) 与 已 知 的 Q(a) 相 一 致 。 在 这 种 学 习 
问题 中 ,期 望 的 概率 分 布 可 以 从 包含 输入 特征 和 输出 类 别 信息 的 训练 样本 中 统计 出 。 实 际 得 
到 的 概率 分 布 是 在 输入 节点 和 输出 节点 都 不 箱 位 的 情况 下 ,经 由 退火 过 程 实现 的 。 

我 们 现在 开始 区 别 对 待 可 见 单元 ( 即 输入 节点 和 输出 节点 ) 的 构 型 和 隐 单 元 的 构 型 。 前 者 
用 a 表示 ,后 者 用 表示 ,如 图 7-1 所 示 。 注 意 到 式 (4) 中 用 a,b 表示 系统 的 不 同 构 型 ,而 这 里 
的 a 和 8 则 分 别 对 应 可 见 单元 集 和 隐 单 元 集 的 构 型 。 

可 见 构 型 的 概率 等 于 所 有 可 能 的 隐 状 态 构 型 的 求 和 : 


P(a) = 》 P(a, B) 
有 


pa dB Tidi (6) 
- 
其 中 Eg 是 对 应 可 见 单 元 和 隐 单 元 构 型 的 系统 能 量 。Z 是 系统 总 的 配 分 函数 。 式 (6) 是 从 式 
(3) 变 化 而 来 , 它 表明 为 了 寻找 给 定 可 见 状 态 a 的 概率 ,对 所 有 可 能 的 与 a 一 致 的 隐 状 态 求 和 。 
对 实际 分 布 和 期 望 分 布 差异 的 一 个 自然 度量 是 相对 入 , Kullback-Leibler 距离 或 
Kullback-Leibler 散 度 ( Kullback-Leibler divergence), 有 即 
Q(a) 
P(a) 





Dx1(Q(a), P(a)) = 》 O(a)log (7) 
易 知 Dir 非 负 , 并 且 当 且 仅 当 Pla) 一 Q(a) 时 才 为 零 ( 参 见 附录 A. 7.2)。 注 意 公式 (7) 仅 与 可 
见 单元 有 关 ,而 与 隐 单 元 无 关 。 

学 习 的 过 程 基于 相对 焙 的 梯度 下 降 算法 。 训 练 模式 集 确 定 了 Q(a) ,我 们 的 目的 是 确定 合 
适 的 权 值 , 使 得 在 温度 T 上 实际 分 布 P(a) 与 Q(a) 尽 可 能 地 接近 。 于 是 取 一 个 未 经 训练 的 网 
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络 ,并 按照 如 下 方式 更 新 每 一 个 权重 : 


ODxi O(a) dP(a) 
dwij; 2 P(a) dw; 


其 中 ,7 是 学 习 率 ( 学 习 步 长 )。 注 意 , PC) 依赖 于 权 值 ,而 OMR. AEIR) Iw; =0, 
从 式 (1) 和 (6) 可 得 











Awi; 一 >y (8) 


aP(a) Epe ET sips) (Ege) Ery F/T si Ams An) 
Bwj TZ TZ? 


] 
7 bs (aB)s ;(a@B a, B) (a)Elsjs; | (9) 


其 中 s OETA i 在 由 a,B 确 定 的 构 型 空间 中 的 状态 。 当 然 ,如 果 节 点 i 是 可 见 单元 , 则 只 
有 “的 但 才 是 有 关 的 ,而 如 果 属于 隐 节 点 , 则 只 有 8 的 值 有 关 ( 我 们 的 记 法 包含 了 两 种 情 
帝 )。 期 户 值 EL ss; ] 取 自 温度 工时 的 统计 。 通 过 合并 式 (8) 和 (9) 的 项 , 权 值 更 新 公式 成 为 


(or 
Awij = 二 abs a ds (ap)s;(ap)P (æ, B) 一 2 Etas 


; | 
=F bs O(a) P(Bla)s;(@B)s;(a@B) — E sv (10) 


n 
“T | Eglsisjlage — Elsis;] | 
Nera, a 
学 习 非 学 习 


其 中 Pl(a,B) = 二 PC(B|a)P(a)。 我 们 已 定义 
Eo (SiS jlo gy = >》 O(a) P(Bla)s;(a@B)s;(@B) (11) 
aß 





这 个 值 是 当 可 见 构 型 a 中 的 可 见 单 元 保持 固定 一 一 箱 位 
样本 依 概 率 Q(a) 取 加 权 平 均 。 

式 (10) 右 边 第 一 项 可 以 不 严格 地 称 为 “学 习 分 量 ” 或 者 教师 分 量 ( 因 为 这 些 可 见 单元 的 值 
固定 箱 位 到 教师 信号 给 定 的 值 上 )。 而 第 二 项 称 为 非 学 习 分 量 或 学 生 分 量 ( 在 其 中 变量 允许 任 
意 的 变动 )。 如 果 Eoe[Lsis) lowe =Elsisj len MWA A ws = 二 0。 于 是 ,我 们 得 到 期 望 的 权 值 。 非 

et CLSiSi 6 由 


非 学 习 


学 习 分 量 的 存在 降低 了 节 点 间 虚 假 相 关 的 出 现 一 一 所 谓 “ 虚 假 ? 是 指 它们 并 非 真 正 源 自 训 练 样 
本 。 一 个 基于 上 述 推导 的 学 习 算法 需要 将 训练 样本 中 每 一 个 模式 多 次 提供 给 网 络 , 然 后 用 式 
《10) 调 节 权 重 ,就 像 我 们 以 前 看 到 的 其 他 各 种 训练 方法 一 样 (例如 反 向 传播 算法 ,第 6 章 )。 
输入 -输出 联想 的 随机 学 习 

现在 开始 考虑 学 习 输 入 -输出 映射 的 问题 一 一 也 是 模式 识别 最 感 兴趣 的 问题 。 我 们 希望 
通过 学 习 建 立 起 输入 节点 的 (可 见 ) 状 态 «i 到 输出 节点 状态 a" 之 间 联 想 关 系 , 如 图 7-7 所 示 。 
形式 化 地 说 ,使 PCa a) Q 1a ) 的 距离 应 尽 可 能 地 接近 。 刻 划 这 个 距离 最 合适 的 指标 是 
下 述 用 每 个 输入 样本 的 概率 加 权 的 Kullback-Leibler 散 度 : 


; 的 相关 值 对 训练 
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Dg (O(a lai), P(a@°|a')) = 2 P(a') 2o Qla" la og Sr (12) 
正如 式 (8) 那 样 ， 所 谓 学 习 , 就 是 调节 互 连 权 重 , 以 降低 上 述 加 权 距 离 的 值 , 即 是 
aDkL 
Ana Ene (13) 


完整 学 习 规 则 的 推导 过 程 与 推导 式 (11) 的 方法 很 接近 。 惟 一 的 区 别 在 于 输入 单元 对 学 习 分 量 
和 非 学 习 分 量 都 箱 位 (参见 习题 11)。 最 终 的 权 值 更 新 结果 为 


1) 
Awi; = T &ofsisj]woo 逢 位 = 一 [Sisj lai t (14) 
t,t 
= AEF 


在 7.3.3 节 中 我 们 将 提供 更 好 的 、 确 定性 的 Boltzmann 学 习 算 法 的 伪 代 码 。 但 是 这 里 让 我 们 
站 先 利 用 一 般 的 方法 , 即 式 (14) 学 习 一 个 简单 模式 ,以 期 对 算法 获得 更 多 的 直观 认识 。 图 7-8 示 
出 了 一 个 7- 记 点 的 网 络 ,用 输入 模式 51 三 十 1 ,5 二 十 1, 和 输出 模式 ss = lss 一 十 1 来 训练 该 网 
络 。 在 典型 的 “中 取 一 的 表达 中 ,这 个 期 望 输出 信号 意味 着 输出 类 别 ww 。 因 为 不 管 是 训练 过 
程 还 是 分 类 过 程 ,输入 节点 s 和 s; 都 被 箱 位 到 十 1 值 , 所 以 在 图 的 右边 我 们 只 显示 出 2° = 32 
种 构 型 。 对 应 于 随机 确定 的 权重 的 训练 前 的 能 量 ( 式 (1)) 在 图 中 用 黑 线 表 示 。 而 利用 式 (14) 
训练 后 的 能 量 在 图 中 用 红色 的 线 表示 。 可 以 看 出 二 者 之 间 有 变化 。 并 且 注 意 到 ,正如 我 们 希 
望 的 那样 ,所 有 具有 期 望 输出 的 模式 的 能 量 ,都 因为 训练 而 降低 了 。 因 此 , 当 输入 节点 保持 箱 
Y ,而 网 络 继续 退火 , 则 期 望 输出 被 找到 的 可 能 性 变 得 更 大 。 


训练 前 











t AEI TA OBS) 
eet gok Eel 

++I ee +A 

| 1 十 十 十 十 1 1 1 1 十 十 十 十 1 1 1 1 十 十 十 十 1 | 

5 ° | 十 十 1 1 十 十 1 1 十 十 1 1 十 十 | 1 十 十 1 1 十 十 | 
p Tt tt et tt tt ttt + 
S 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 

‘ 


EA J ”这 些 构 型 在 训 
训练 模式 - St 


图 7-8 一 个 7- 单 元 全 互 连 的 Boltzmann 网 用 Boltzmann 学 习 算 法 训练 为 对 输 人 模式 
s= +1, = +R AA w。 在 训练 中 ,输出 节点 s (对 应 类 别 w ) 被 箱 位 到 十 1, 而 输出 节点 se 
(对 应 类 别 ww ) 被 箱 位 到 一 1。 所 有 2 一 32 个 具有 5 二 十 1,5; 二 十 1 的 模式 及 其 能 量 示 于 图 的 右 
边 。 图 中 的 黑 线 是 训练 前 的 能 晤 值 ,而 红线 是 训练 后 的 能 量 值 。 特别 注意 到 ,在 训练 后 ,所 有 代表 
完整 模式 的 构 型 的 能 量 值 都 下 降 了 ,这 意味 着 它们 更 可 能 出 现 。 除 此 之 外 并 无 其 他 模式 在 训练 后 
变 得 可 能 性 降低 。 这 样 训 练 充 分 后 , 当 输 人 s = +1, 52 二 十 1, 网 络 经 过 退火 ,ss 二 一 1 和 s; = +1 
的 出 现 几 率 大 大 增加 ,而 这 正 是 我 们 所 期 望 的 
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式 (14) 中 的 权 值 更 新 公式 与 我 们 在 第 5 革 和 第 6 章 遇 到 的 那些 稍微 有 点 不 同 , 因 而 值得 
仔细 解释 一 下 。 图 7-9 显示 的 是 图 7-8 中 单个 模式 学 习 的 详细 情况 。 由 于 s 和 ss 始终 被 箱 
fii FF AE, Ls so Jaime =1=ELs: So le sey ,这 样 ( 根 据 式 (14)) 权 重 uws 不 会 变动 。 考 虑 涉及 s 
As, 的 更 一 般 的 情形 。 在 学 习 阶 段 , 这 两 个 节点 都 被 箱 位 到 十 1, 因 此 其 相关 值 也 为 十 1。 而 
在 非 学 习 阶 段 , 输 出 节点 s; 允 许 自 由 变动 ,导致 相关 值 降 低 。 事 实 上 , 它 碰 巧 成 了 负 值 。 这 样 ， 
学 习 律 就 必须 试 着 增加 wi; 的 值 ,以 使 得 输入 = 41 将 导致 输出 s; 二 十 1, 正 如 右边 的 矩阵 所 
显示 的 那样 。 因 为 隐 单 元 仅仅 哗 相关 (或 者 反 相关 ), 所 以 与 隐 单 元 相连 的 权重 变化 很 小 。 


图 标 


E- E 
-1 


0.5 0 HS +I 





ae yy py 权 值 更 新 


图 7?-9 对 图 7-8 的 7- 单元 网 络 的 单个 模式 的 Boltzmann 学 习 过 程 在 这 里 示 出 。 左 边 的 (对 称 ) 矩 
阵 是 单元 间 学 习 分 量 的 相关 值 , 其 中 输入 节点 和 输出 节点 都 有 箱 位 , 即 5 二 十 1,ss = 十 1,ss 二 一 1， 
5 二 十 1。 中 间 的 矩阵 显示 了 非 学 习 分 量 , 其 中 输入 节点 有 箱 位 ,而 输出 节点 允许 任意 变动 。 根 据 
式 (14) 权 值 更 新 过 程 必 须 正 比 于 两 个 矩阵 间 的 差异 , 正 像 右边 矩阵 示 出 的 那样 。 例 如 ,注意 到 由 
于 ys 的 学 习 相 关 和 非 学 习 相 关 都 很 大 (因为 它们 都 被 箱 位 了 。.) ,所 以 权 值 不 需要 改变 , 即 
At 一 0。 而 9% 和 s; 的 学 习 相 关 很 大 ,而 非 学 习 相 关 很 小 ,所 以 需要 较 大 的 更 新 ,如 右边 矩阵 所 示 


在 学 习 很 多 模式 时 ,每 个 模式 依次 被 馈 和 ,并且 按 照 前 面 的 公式 进行 权 值 更 新 。 当 对 全 部 
模式 的 实际 输出 与 期 望 输出 吻合 或 大 致 吻合 时 ,学 习 过 程 即 告 结束 (参见 7. 3.4 节 )。 这 种 随 
机 学 习 的 优点 在 于 ,如 果 发 现 误 差 高 得 难于 接受 ,就 只 增加 温度 和 退火 一 一 无 需 对 权 值 重新 初 
始 化 和 重新 启动 完全 退火 ， 

7.3.2 丢失 特征 和 类 别 约束 

Boltzmann 训练 算法 (包括 后 面 的 7.3.3 节 将 讨论 的 一 种 更 好 的 实现 ) 的 一 个 关键 的 优点 
在 于 :不 管 在 学 习 阶 段 ,还 是 识别 阶段 , 它 都 能 够 处 理 丢 失 特 征 的 情况 。 训 练 中 如 果 过 到 一 个 
缺损 的 二 值 模式 , 则 对 应 于 丢失 的 那个 特征 的 输入 节点 的 值 允 许 发 生 改 变 也 就 是 说 ， 可 
以 暂时 地 将 它 看 作 是 隐 节 点 ,而 不 是 箱 位 输入 节点 。 这 样 做 的 结果 是 ,在 退火 过 程 中 ,该 节点 
的 值 可 以 自动 调整 ,以 使 它 与 其 他 节点 ,以 及 与 整个 网 络 的 状态 保持 最 大 程度 的 相 容 (习题 
14)。 同 样 ,在 识别 缺损 模式 时 ,任何 的 对 应 于 丢失 特征 的 节点 也 都 不 被 箱 位 ,而 允许 在 退火 过 
程 中 目 由 变动 。 

一 些 辅助 的 知识 或 约束 可 被 徐 人 到 Boltzmann 网 络 的 分 类 阶段 。 假 设 有 一 个 5- 类 分 类 问 
题 ,假如 事先 已 知 某 测 试 样本 既 不 属于 m ,也 不 属于 w (这 种 约束 可 能 来 自 上 下 文 信息 , 或 者 
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KA ERA AN HAR GR) . AE, ERR K E, AEA LAGER I Foo, Mo, 的 输出 类 
别 节 点 在 退火 过 程 中 强制 箱 位 到 ;;== 一 1, 而 最 终 的 分 类 结果 可 以 照 读 不 误 。 

当然 ,这 个 例子 的 可 能 的 分 类 结果 只 能 在 非 箱 位 输出 节点 上 读 到 , 即 ws ,ws,w;。 施 加 这 
种 约束 可 以 使 得 分 类 率 提 高 (习题 15) 。 
模式 补足 

“模式 补足 ”问题 指 的 是 :只 给 定 模 式 的 一 部 分 ,要 求 估计 出 完整 的 模式 。 从 这 里 可 以 看 
出 ,模式 补足 问题 与 缺损 模式 的 分 类 问题 有 直接 的 联系 ,因而 自然 也 可 以 采用 Boltzmann 网 络 
来 研究 。 首 先 ,用 一 组 有 代表 性 的 训练 样本 来 训练 一 个 全 互连网 。 该 网 络 可 以 有 隐 单 元 ,也 可 
以 没有 。 如 前 所 述 , 输 入 可 见 单 元 对 应 于 模式 特征 分 量 。 当 输入 一 个 部 分 或 缺损 模式 时 ， 可 
多 单元 中 只 有 对 应 未 缺损 特征 的 那些 节点 才 被 箱 位 到 相应 的 值 上 ,而 其 他 节点 允许 变动 。 然 
后 ,网络 开始 退火 , 则 有 待 估计 的 那些 特征 就 会 显现 在 另外 的 可 见 单元 上 ,如 图 7-10 所 示 ( 上 
机 练习 4) 。 如 果 能 够 事先 知道 待 补足 模式 的 类 别 , 并 且 在 对 应 输出 类 别 节 点 上 箱 位 ,那么 得 
到 的 模式 补足 结果 会 更 精确 。 


129456 1490 
6 oc 






缺损 模式 作为 
由 网 络 提出 的 完成 模式 


A 


ee 

可 见 E 
图 7-10 Boltzmann 网 络 能 够 用 于 模式 补足 ,也 就 是 填充 缺损 模式 中 的 位 置 特 征 。 这 里 ,一 个 具有 5 个 
隐 单 元 的 12- 单 元 的 网 络 用 10 个 7- 段 数字 模式 来 训练 。 图 的 左下 部 示 出 了 特征 和 节点 的 对 应 关系 。 
图 的 上 部 , 黑 的 笔划 对 应 于 十 1, 红 的 对 应 一 1。 考 虑 图 右边 的 缺损 模式 ,只 有 两 个 笔划 ss 二 一 1,ss = 十 1 
给 出 ,其余 5 个 都 未 知 。 经 过 网 络 退火 ,另外 5 个 笔划 都 得 到 了 最 大 可 能 的 值 ,如 图 最 右边 所 示 








Boltzmann 网 络 中 如 果 没 有 隐 节 点 或 者 类 别 节 点 ,那么 它 将 非常 类 似 所 谓 的 Hopfield 网 

络 ,或 Hopfield 目 联想 网 络 ( 习 题 12) 。 这 种 网 络 只 存储 模式 本 身 , 而 不 存储 模式 的 类 别 标记 。 

其 学 习 规则 无 需 采 用 式 (14) 那 种 完整 的 Boltzmann 算法 。 相 反 地 , 它 的 权 值 是 人 工 设 定 的 。 
权 值 的 大 小 正比 于 特征 向 量 对 全 体 训练 样本 平均 了 的 相关 值 , 即 

wi; x Colsis;] (15) 


其 中 wi 二 0; 而 且 这 里 不 需 考 虑 温度 。 这 种 学 习 算 法 显然 要 比 采用 真正 退火 的 Boltzmann 学 
习 快 很 多 。 但 是 ,尽管 在 确保 网 络 已 经 被 充分 训练 过 (如 Boltzmann 学 习 中 的 充分 退火 ) 的 前 
提 下 ,我 们 也 无 法 保证 学 习 阶段 和 测试 阶段 系统 的 平衡 态 相关 值 是 相等 的 , 即 A wy 一 0( 参 见 
习题 13). 
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上 述 Hopfield 网 的 成 功 很 难 推广 到 实际 的 模式 识别 问题 中 ,其 中 部 分 的 理由 在 于 Hopfield 
网 缺少 表示 输出 类 别 的 市 点 。 不 过 ,有 时 对 于 简单 的 低 维 模式 补足 问题 ,或 者 和 目 联想 问题 , 它 还 
是 挺 有 用 的 。 特 别 是 ,假定 一 个 这 样 的 网 络 已 经 学 习 了 很 多 种 模式 ,这 些 模式 以 构 型 的 形式 存储 
在 网 络 中 。 当 输入 一 个 含 噪 模式 或 缺损 模式 时 ,网 络 就 可 以 迭代 演化 到 相应 的 人 存储 的 构 型 。 不 
过 可 惜 的 是 ,业已 证 明 ,一 个 Hopfield 网 最 多 只 能 存储 0. 144 个 a 维 模式 ,这 确实 太 有 限 了 。 而 
且 , 如 果 训 练 模式 的 分 布 不 够 随机 , 则 可 以 存储 的 模式 数目 可 能 会 更 低 。 而 对 于 我 们 前 面 讨 论 过 
的 Boltzmann 网 络 ,通过 简单 的 增加 隐 单 元 的 个 数 就 能 存储 更 多 的 模式 。 

由 于 Boltzmann 网 含有 环 路 和 反馈 连接 ,所 以 对 已 经 学 习 的 模式 的 隐 节 点 内 部 表达 进行 
解释 常常 很 困难 。 但 虽然 如 此 ,有 时 从 输入 节点 的 权 和 矩阵 的 图 样 上 可 以 看 出 特征 组 织 的 情况 ， 
而 这 对 于 分 类 往往 很 重要 。 

7.3.3 UT Boltzmann 学 习 

具有 隐 单 元 的 Boltzmann 随机 学 习 算 法 的 计算 复杂 度 相 当地 高 ， 每 个 模式 都 要 多 次 提供 
给 网 络 ,而且 每 个 单元 都 要 多 次 轮 询 。 正 如 " 均 场 退火 算法 ” 优 于 随机 退火 算法 一 样 , Boltz- 
mann 网 络 的 均 场 版 本 也 明显 优越 于 其 随机 版 本 。 确 定型 Boltzmann 学 习 的 基本 方法 就 是 对 
状态 变量 允许 模拟 取 值 ,并 且 采 用 式 (14) 进 行 均 场 退火 。 如 确定 型 退火 结束 时 提 到 的 那样 , 模 
拟 状态 值 会 目 动 收敛 到 问题 所 需要 的 士 1 上 。 有 明确 地 说 , 令 刀 表示 训练 模式 x 的 集合 ,x 中 包 
含 模 式 特征 和 类 别 标记 ,确定 性 Boltzmann 学 习 算 法 过 程 如 下 : 


算法 3 (WU Boltzmann 学 习 算法 ) 

l begin initialize D,7, TCk) ,ws 7 一 1 
2 do 随机 选择 训练 模式 x 

状态 Si 随机 化 

退火 网 络 用 输入 和 输出 箱 位 

在 最 后 的 低 ,计算 Css; Jee aie 

状态 Si 随机 化 

退火 网 络 用 输入 箱 位 而 输出 自由 

在 最 后 的 低 工 ,计算 [sisy ligt 

Wy ~ Wy + 9/ TLL sis; Jaa gt —[ sis; lign] 
10 until k= Kosx 或 收敛 准则 满足 

ll return w; 

12 end 





o wo u mM A A W 


利用 均 场 理论 ,可 以 在 考虑 梯度 的 基础 上 高 效 的 计算 相关 函数 的 均 场 近似 。 每 个 状态 的 
模拟 数值 可 以 替代 平均 数值 ELs;], 并 且 从 理论 上 ,可 以 用 迭代 求解 一 个 非 线 性 方程 组 的 方法 
获得 。 相 关 函 数 的 均值 于 是 可 以 用 下 面 的 近似 公式 求 出 »ELSis; ELs; JELS; ]s:s;, WRK 
第 5 行 和 第 8 ITER. 

7.3.4 ”初始 化 和 参数 设置 | 

正如 其 他 所 有 分 类 器 一 样 ,Boltamann 网 络 中 也 有 若干 相关 的 参数 需要 设置 。 痛 先是 网 
络 的 拓扑 结构 和 隐 单 元 的 数目 。 二 进 制 的 特征 向 量 的 位 数 和 模式 的 类 别 数目 已 经 确定 了 可 见 
单元 ( 含 输入 节点 和 输出 节点 ) 的 数目 。 当 对 问题 没有 更 深入 的 了 解 时 ,通常 假定 网 络 是 全 互 
连 的 。 于 是 ,只 剩 下 隐 单 元 的 数目 需要 人 工 设 定 。 另 外 一 种 可 选 的 拓扑 方案 是 消除 输入 节操 
之 间 的 互 连 , 对 输出 节点 也 同样 处 理 ( 这 种 网 络 的 优点 是 训练 速度 非常 快 ,但 由 此 引起 的 代价 
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是 对 模式 补足 或 缺损 模式 识别 问题 效果 不 好 )。 诚 然 ,一般 来 说 ,分 类 问题 越 复杂 ,所 需 的 隐 单 
元 数目 就 越 大 。 但 是 问题 来 了 :究竟 多 少 隐 单 元 是 合适 的 呢 ? 

假定 训练 样本 集 厂 中 含有 n 个 不 同 的 输入 -输出 对 , 则 所 需 的 最 少 隐 单元 数 的 一 个 上 界 应 
该 是 n, 这 意味 着 每 个 模式 都 对 应 一 个 隐 单 元 。 当 模式 i 输入 时 ,有 惟一 一 个 隐 单 元 s; 二 十 1， 
而 其 他 隐 单 元 都 取 一 1。 对 这 种 内 部 表达 方式 ,可 以 通过 如 下 的 方法 来 确保 。 即 对 于 特定 的 隐 
单元 i, 令 那 些 与 i 相连 的 权 w; 取 正 值 ,其 中 的 7 是 指 对 应 输入 模式 中 具有 十 1 特征 的 输入 节 
点 ;而 令 其 他 那些 与 i 相连 的 权 w; 取 负 值 ,这 里 的 7 是 指 对 应 输入 模式 中 具有 一 1 特征 的 输入 
节点 ; 隐 单 元 与 输出 节点 的 连接 权 , 如 果 输 出 节点 的 类 别 恰好 对 应 该 模式 的 实际 类 别 , 则 取 正 
值 ,否则 取 负 值 。 以 上 方法 所 获得 的 内 部 表达 与 概率 神经 网 络 在 实现 Parzen 窗 估 计时 的 结果 
很 相似 (参见 第 4 章 )。 自 然 , 这 种 表达 方式 对 于 模式 类 别 增 多 、 互 连 权 的 数目 呈 指 数 增长 的 情 
形 是 不 适用 的 ,因为 训练 过 程 将 变 得 很 慢 ,推广 性 能 也 会 变 差 。 

由 于 隐 单 元 的 状态 都 是 二 值 的 ,为 了 表示 n 个 不 同 的 二 值 的 项 ,至 少 需 要 | log;n | 比特 。 因 此 
能 够 表示 ”个 不 同 模式 最 少 的 隐 单 元 数 也 是 | logsn |。 尽 管 如 此 ,这 个 隐 节 点 个 数 的 下 界 仍然 不 
够 紧 , 因 为 有 可 能 存在 这 样 的 情况 , 即 无 法 找到 合适 的 权 值 组 合 能 够 惟一 的 表达 各 个 模式 (习题 
16)。 除 了 上 述 分 析 以 外 ,我 们 很 难 对 所 需 的 隐 单 元 数 给 出 更 明确 的 结论 ,因为 这 常常 和 具体 分 
类 问题 的 内 在 复杂 度 有 关 。 不 过 ,就 像 我 们 在 反 向 传播 网 络 (第 6 章 ) 所 作 的 那样 ,首先 给 Bolt- 
zmann 网 络 “ 非 常 多 ”的 节点 ,然后 运用 “ 权 值 衰减 ”的 技巧 往往 可 以 改进 它 的 性 能 。 在 训练 中 ， 
如 果 s: Als; 都 是 正 值 或 者 都 是 负 值 ,那么 就 在 ws 上 增加 一 个 小 量 e。 而 如 果 在 非 学 习 阶 段 ， 
则 减 去 这 个 小 量 e。 通 常 在 训练 中 还 要 逐渐 减 小 这 个 e。 这 种 “ 权 值 衰减 ”的 运用 ,可 以 减轻 那 
些 错 误 相 关 的 影响 ,消去 无 用 的 权 , 从 而 提高 了 推广 能 力 。 

Boltzmann 网 络 相 比 反 向 传播 网 络 的 优越 性 还 表现 在 , 反 向 传播 网 络 会 因 隐 单元 数目 过 
多 而 性 能 下 降 , 但 是 Boltzmann 网 络 却 不 会 。 这 是 因为 在 学 习 中 ,Boltzmann 网 存在 一 个 平滑 
判决 边界 的 状态 统计 平均 过 程 ,而 在 反问 传播 网 中 没有 等 价 的 处 理 过 程 。 诚 然 , 上 述 统计 平 
均 , 也 势必 导致 Boltzmann 计算 代价 增加 。 | 

下 面 我 们 接着 讨论 权 值 的 初始 化 问题 。 当 然 可 以 将 所 有 权 值 都 初始 化 为 零 , 但 这 样 作 将 
导致 训练 过 程 不 必要 的 慢 。 在 没有 其 他 任何 信息 的 前 提 下 ,大致 可 以 估计 大 约 有 一 半 的 权 值 
取 正 ,而 态 一 半 取 负 。 在 一 个 具有 全 互 连 隐 节点 的 网 络 中 ,由 于 根本 没有 办 法 区 别 某 一 个 特定 
的 隐 节 点 ,所 以 我 们 可 以 任意 的 令 一 半 的 节点 权 为 正 , 另 一 半 为 负 。 初 始 的 权 值 如 果 限 于 一 定 
的 合适 的 范围 ,将 有 利于 提高 学 习 速 度 。 假 定 一 个 全 互连网 络 有 六 个 单元 ,( 于 是 每 个 单元 的 
互 连 权 数 六 一 1=N)。 进 一 步 假定 状态 在 任意 时 刻 变 化 到 十 1 或 一 1 的 概率 相同 。 我 们 要 寻 
找 这 样 的 初始 权 , 以 使 得 作用 在 每 个 单元 上 的 净 外 力 是 一 个 方差 为 1.0 的 随机 数 。 大 致 的 权 
值 范围 可 参考 图 7-5, 图 中 表明 可 用 一 V3/N 二 w; 二 十 V3/N 的 随机 数 来 初始 化 权 值 ,参见 习 
题 17。 

如 果 和 迭代 次 数 很 多 ,比如 数 干 次 ,那么 即使 冷却 系数 c=0. 99 也 会 嫌 小 。 这 种 情况 下 ,我 
们 可 以 选用 c=, FE TOSTO) Wh ,其 中 ko 是 一 个 衰减 常数 。 初始 温度 TOMY 
设置 得 很 高 ,以 保证 所 有 状态 都 被 允许 。 但 是 对 于 T(1) ,我 们 又 希望 它 被 设置 得 足够 低 , 以 减 
少 训练 时 间 。 可 接受 的 初始 温度 的 下 界 与 具体 问题 有 关 , 但 是 我 们 可 以 通过 在 几 个 候选 温度 
上 作 简 单 的 仿真 试验 ,观察 状态 迁移 的 情况 来 确定 其 经 验 值 。 假 设 mx 是 本 次 退火 中 对 应 能 
量 下 降 的 状态 迁移 的 数目 ( 即 可 接受 的 状态 改变 ) ,mz 是 对 应 能 量 下 降 的 状态 迁移 的 数目 。 令 
E LAEj 表 示 状 态 改 变 过 程 中 的 平均 能 量 上 升 。 于 是 ,利用 式 (4) ,我们 发 现在 退火 开始 时 , 状 
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仿 的 接受 概率 为 : 
R= 接受 的 状态 迁移 数目 .、 mı +mz2-exp[—€,[AE}/T(1)] (18) 
” ”总 的 状态 迁移 数目 mı +m 
重新 排列 上 面 的 项 ,我 们 得 到 初始 温度 应 该 服从 
T(1) = A o 17 
Inim} — lIn[m R —m,(1 — R)] (17) 


由 设计 者 给 定 的 初始 温度 对 应 的 状态 接受 概率 R 不 一 定 是 预期 的 1.0。 即 便 如 此 , 它 仍 


然 服 从 式 (17)。 合 适 的 T(1) 可 利用 如 下 一 个 简单 的 迭代 过 程 找到 。 首 先 , 邻 T(1) 王 0, 执 行 
mo 次 单元 轮 询 测试 ,根据 仿真 试验 分 别 统 计 对 应 接受 的 能 量 下 降 和 能 量 上 升 的 状态 迁移 次 
数 , 分 别 用 mx 和 mx; 表示。 一 般 说 来 ,mi 十 ms 二 m。。 原 因 是 许多 的 能 量 上 升 的 状态 改变 过 程 
被 拒绝 接受 。 然 后 ,利用 式 (17) 和 统计 出 的 m 和 ms 计算 新 的 T(1)。 接 着 执行 新 一 轮 ro 次 
轮 询 测 试 , 得 到 m 和 ms 新 值 ,进而 得 到 TT(1) 的 新 值 。 如 此 重复 继续 下 去 ,直到 mm 十 mz ~m 
为 止 。 此 时 的 TT(1) 对 应 的 接受 率 RT1, 因 此 可 选用 它 作 为 初始 温度 。 实 践 中 ,上 述 算法 可 以 
很 快 的 收敛 到 合适 的 TO) E. 

为 外 一 个 重要 的 得 设置 的 参数 是 式 (14) 中 的 学 习 率 7。 回 想 一 下 ,， 学习 过 程 是 利用 衡量 
可 见 单元 的 实际 分 布 与 期 望 分 布 的 差异 的 Kullback-Leibler 散 度 的 梯度 下 降 来 实现 的 。 在 
第 6 章 中 ,多 层 神经 网 络 学 习 率 的 界 是 通过 计算 误差 曲率 来 导出 的 。 并 且 还 找到 了 确保 稳定 
性 的 前 提 下 学 习 率 的 上 界 。 这 种 曲率 的 计算 要 基于 赫 森 和 矩阵 ,也 就 是 误差 函数 对 权 值 的 二 阶 
导数 矩阵 。 对 N 单元 全 互 连 Boltzmann 网 , 它 的 NCN—1)/2 个 互 连 权 用 向 量 w RR. HH 
5 w' Hw 成 正比 ,其 中 

Dri 

aw? 

BL te FE Jz BA) bh ORE. Kullback-Liebler 散 度 可 利用 式 (12) 计 算 。 对 分 类 问题 作 很 弱 的 假定 

We FY VA (ce Th ah Be EE ,而 出 于 稳定 性 的 考虑 ,要 求 TI/N( 习 题 18)。 注 意 到 在 高 温 丁 时 ,人 允 
许 适 用 较 大 的 学 习 率 ,因为 此 时 误差 曲面 已 经 被 高 的 随机 性 大 大 平滑 了 。 

一 种 实用 的 启发 式 , 而 非 技术 性 的 参数 设置 于 段 ,也 能 多 少 提 供 一 些 计 算 上 的 加 速 。 即 在 
退火 的 早期 ,允许 多 个 单元 同步 更 新 其 状态 。 能 量 的 变化 和 接受 概率 的 计算 方法 一 如 从 前 。 
当然 ,在 退火 快 结束 时 ,应 该 恢复 到 一 次 测试 一 个 单元 的 异步 轮 询 方式 ,以 保证 能 够 充分 搜索 
最 优 构 型 的 细节 。 还 有 一 种 偶尔 采用 的 做 法 也 能 够 提高 最 终 解 的 质量 , 即 在 退火 过 程 中 存储 
当前 的 最 优 构 型 ,然后 再 继续 退火 更 新 。 如 果 退 火 得 到 一 个 比 存储 的 构 型 还 要 差 的 结果 ,那么 
可 重新 启用 存储 的 构 型 。 

Boltzmann 学 习 算 法 有 两 种 基本 的 停止 准则 。 第 一 种 停止 准则 用 来 确定 何 时 应 该 终止 某 
次 单一 的 退火 过 程 ( 包 括 学 习 阶 段 和 非 学 习 阶 段 ) 。 这 里 ,最 终 的 温度 应 当 足 够 的 低 , 以 保证 不 
接受 任何 能 量 上 的 上 升 。 这 种 信息 可 以 方便 的 从 “能 量 -迭代 次 数 ” 图 中 读 出 ,就 像 图 7-3 左边 
那样 。 在 退火 末期 ,全 部 NN 个 单元 被 逐一 轮 询 检 验 , 以 确保 最 终 构 型 确实 对 应 局 部 能 量 极 小 
(当然 未 必 一 定 是 全 局 最 小 )。 第 二 种 停止 准则 控制 的 是 每 个 训练 样本 提供 给 网 络 的 次 数 。 当 
然 ,准则 的 恰当 与 否 还 取决 于 具体 问题 的 内 在 复杂 度 。 一 般 说 来 , “过度 训练 ”问题 在 Boltz- 
mann 网 络 中 考虑 的 相对 比较 少 , 而 不 像 基 于 梯度 下 降 的 多 层 神经 网 络 那 样 。 原 因 在 于 Boltz- 
mann 网 络 的 状态 平均 过 程 平滑 了 判决 边界 ,而 多 层 神经 网 络 的 过 度 训练 使 得 判决 微调 到 特定 
的 训练 集 上 。 一 个 合理 的 判定 Boltzmann 网 训练 停止 的 方法 是 监视 其 验证 集 (validation set) 


(18) 
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的 分 类 误差 率 ( 参 见 第 9 章 ) 。 如 果 误 差 率 不 再 发 生 显著 的 改变 , 则 停止 训练 过 程 。 
*7.4 Boltzmann 网 络 和 图 示 模 型 


虽然 我 们 以 前 考虑 的 主要 是 全 互 连 的 Boltzmann 网 络 ,但 是 其 学 习 算 法 (算法 3) 同 样 适 
用 于 具有 任意 连接 拓扑 的 网 络 结 构 。 而 且 修改 标准 的 Boltzmann 学 习 算 法 也 比较 容易 ,比如 
税 入 各 种 约束 ,例如 权 值 共享 等 。 因 此 , 几 种 流行 的 识别 器 结构 , 即 所 谓 的 “图 示 模 型 ”graph- 
ical model) ,例如 贝 叶 斯 置信 网 .或 者 隐 马 尔 可 夫 模 型 (HMM) ,都 存在 与 之 对 应 的 结构 化 Bo- 
ltzmann 网 络 模型 ,并 且 可 采用 新 的 学 习 算 法 。 

回想 一 下 第 3 章 ,一 个 HMM 具有 个 离散 的 隐 状 态 和 可 见 状态 。 在 每 个 离散 的 时 间 步 
上 ,系统 可 能 位 于 某 个 隐 状 态 上 ,并 且 激 发 一 个 可 见 状态 ,分 别 用 w(t) 和 w(t) 表示 。 在 相 邻 的 
连续 时 间 步 上 , 隐 和 状态 间 的 状态 转移 概率 为 


ai; = P(w;(t + Ila;(t)) (19) 





隐 状 态 到 可 见 状 态 的 转移 概率 为 
bj, = P(w t)i; (7)) (20) 


常规 做 法 是 采用 前 向 -后 向 算法 或 Baum-Welch 算法 (第 3 章 算法 5) 从 具有 Tj 个 可 见 状态 ” 
VT 二 4v(1),vC2),…,v(Ty)}) 的 模式 样本 中 学 习 上 述 参 数 。 
回想 一 下 ,一 个 HMM 能 够 按时 间 “ 展 开 ” 为 一 个 格 结构 (trellis)。 一 种 具有 同样 的 格 拓 
扑 的 Boltzmann 网 络 一 一 所 谓 的 Boltzmann 链 (Boltzmann chain) ,可 实现 与 相应 HMM 同样 
的 分 类 功能 (图 7-11) 。 尽 管 直接 用 多 值 数据 表示 离散 状态 常常 能 简化 工作 ,但 是 我 们 暂时 仍 
然 采 用 二 值 化 节点 表达 ,其 值 取 s; 一 0 或 ;= 二 十 1, 而 不 是 以 前 的 土 1。 人 借助 这 种 表达 ,通用 能 量 
公式 ( 式 (1)) 对 含有 可 见 状态 VY 和 隐 和 状态 @7 = 一 (two(l1),w(C2)，wCTr)) 特定 序列 的 一 个 特 
例 可 以 写作 
Tyr 一 1 Ty 
Eoy = Elo, V] = 一》 Aj- Bj (21) 
t=] t=1 
其 中 ,参数 A 和 B; 的 特定 取 值 隐 含 的 取决 于 该 序列 。 前 面 采用 的 二 值 化 节点 表达 也 隐 含 表 
明 , 只 有 那些 连接 有 状态 值 5, 一 十 1 节点 的 权 才 出 现在 能 量 公式 中 。 每 一 个 “合法 " 构 型 ， 即 每 
个 时 刻 只 包含 一 个 隐 状 态 和 一 个 可 见 状态 ,同样 表明 存在 一 系列 的 A; 和 By, (习题 20)。 如 下 
的 配 分 函数 是 所 有 合法 状态 的 求 和 ,可 用 于 归 一 化 处 理 。 


— —Ew [T 
Z=} ee (22) 


wxV . 
在 温度 工时 ,根据 Boltzmann 链 与 展开 的 HMM 格 的 对 应 关系 ,有 
Ai; = Tin Gij 和 B jx 一 了 ln b jx (23) 


(正如 以 前 在 讨论 HMM 时 一 样 , 我 们 假定 初始 的 隐 状 态 已 知 。 所 以 这 两 种 方法 中 ,都 不 必 考 
虐 先 验 概率 的 对 应 关系 。) 结 构 化 Boltzmann 网 络 的 0-1 表达 方式 根据 式 (21) 能 清楚 的 表明 它 


O ”此 处 用 工 / 计 离 散 的 时 间 步 数 ,以 求 避免 与 Boltzmann 模拟 中 的 温度 T RA. 
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与 HMM 的 联系 。 不 过 采用 s51 的 方式 同样 是 可 行 的 。 虽然 此 时 与 HMM 中 的 转移 概率 
的 对 应 关系 不 再 简单 ,但 是 相应 的 结构 化 Boltzmann 网 络 的 权 值 同样 可 以 用 7. 3 节 的 算法 来 
训练 (参见 习题 21). 

可 见 单元 


ol 





图 7-11 隐 马 尔 可 夫 模 型 可 以 按照 时 间 展 开 为 格 结构 (trellis), 并 用 Boltzmann 链 的 形式 表示 。 
离散 的 隐 状 态 按 列 组 织 , 并 且 通 过 权 和 矩阵 A; (对 应 于 HMM 中 的 转移 概率 a; ) 完 全 互 连 。 离 散 的 
可 多 状态 按 行 组织 , 同 样 与 通过 权 Bj, (对 应 于 转移 概率 5b,,) 与 隐 状 态 全 互 连 。 用 单一 样本 ,或 者 
二 个 可 见 状态 的 列表 ,来 训练 该 网 络 。 可 见 节 点 要 和 钉 位 ,并 采用 有 约 东 的 Boltzmann 算法 训练 ,其 
中 的 约束 是 每 个 时 间 移 位 上 用 特定 的 A, 标记 的 权 值 都 具有 相同 的 数值 





















图 7-12 ”一 个 Boltzmann 拉链 快 可 见 单元 
由 两 个 Boltzmann 链 组 成 ,其 OOO OOD OOO (OOO OOH 
中 隐 单 元 间 存在 互 连 。 每 条 子 wT WS wW WY \P/ 
链 在 采样 时 间 尺 度 上 有 区 别 ，。 n Q 全 A Ze 
因而 捕捉 了 不 同 尺度 的 时 序 结 M BAS == ai 
构 。 相 关 值 是 利用 隐 节 点 间 的 。 F SO x4 
HRM (AE RR) KY i Tox | 
习 。 而 对 有 互 连 的 HMM 模型 P RA 
训练 学 习 不 同 的 时 间 尺 度 结构 \ A N\A 
常常 较 困难 W WN 
i: SEN |) f Wi = 
隐 W | | | 
o f j SS 
” ©; * 
/D\ /D\ Ip 
CHE CED CEO 
慢 可 见 单元 
其 他 图 示 模 型 


类 似 地 ,除了 隐 马 尔 可 夫 模 型 (HMM) 以 外 ,还 有 很 多 的 图 示 模 型 都 能 找到 其 对 应 的 结构 
化 Boltzmann 网 络 模型 。 最 普遍 的 比如 贝 叶 斯 信任 网 (或 有 向 无 环 图 ) ,其 中 每 个 节点 的 值 到 
自 知 干 离散 状态 集合 ,节点 之 间 依 据 条 件 概率 互 连 ( 参 见 第 2 章 )。 正 如 前 面 讨论 HMM 时 所 
作 的 一 样 , 如 果 贝 叶 斯 信任 网 的 节点 的 离散 状态 也 是 二 值 化 的 , 则 它 与 Boltzmann 网 的 对 应 关 
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系 最 清楚 。 虽 然 如 此 ,在 实践 中 ,因为 采用 多 值 状态 的 表达 方式 能 够 更 目 然 的 戏 人 约束 ,因而 


常常 更 受 欢迎 (上 机 练习 7) 。 

实践 中 ,有 时 会 过 到 一 种 迷人 的 模式 识别 问题 , 即 一 个 时 序 信号 中 存在 两 种 内 在 的 时 间 尺 
度 。 例 如 金融 市 场 中 每 日 的 快 变 行为 信和 号 中 从 加 有 季节 的 起 伏 。 标 准 的 HMM 通常 值 有 单 
一 的 时 间 尺 度 , 因 而 不 适合 求解 这 种 问题 。 我 们 可 以 寻求 将 两 个 HMM ,它们 可 能 有 不 同 的 隐 
状态 数 , 互 连 在 一 起 的 方案 。 然 而 ,常规 的 前 向 -后 向 算法 对 于 有 闭环 的 模型 通常 不 收 伍 ,而 两 
个 互 连 的 HMM 恰恰 属于 这 种 情况 。 因 此 ,此 时 采用 对 应 的 结构 化 Boltzmann 网 就 显得 特别 
必要 。 我 们 可 以 将 两 个 Boltzmann 链 互 连 ,就 像 图 7-12 那样 ,构成 一 个 所 谓 的 “Boltzmann 拉 
tE” (Boltzmann zipper)。 这 种 结构 特有 的 一 个 好 处 是 , 它 不 仅 可 以 (通过 快 链 ) 学 习 快 变 过 程 ， 
还 可 以 同时 (通过 慢 链 ) 学 习 慢 变 过 程 。 其 中 链 间 的 互 连 ,在 图 中 用 权 和 矩阵 E 表示 ,用 于 学 习 
快 链 和 慢 链 间 的 相关 性 。 不 过 与 式 (23) 不 同 之 处 在 于 , 权 和 矩阵 E 并 非 简单 对 应 于 转移 概率 
(习题 22) 。 

Boltzmann 拉链 可 以 用 于 诸如 声学 语音 识别 等 问题 。 其 中 , 快 链 学 习 单个 音素 的 结构 及 
其 转变 , 慢 链 学 习 整 个 单词 或 整个 短语 中 更 "大 ”的 韵律 和 重音 结构 。 

相关 的 应 用 还 包括 层 语 ,其 中 , 快 链 学 习 声 音 的 转换 ,而 慢 链 学 习 那 些 较 慢 的 转换 ,例如 图 
像 中 说 话 者 的 嘴 展 、 下 显 和 舌头 的 变化 过 程 。 


"7.5 进化 方法 


受到 生物 学 的 启发 ,分 类 器 设计 的 进化 方法 利用 了 随机 搜索 技术 来 实现 最 优 分 类 。 这 类 
算法 自身 很 适合 采用 大 规模 并 行 计算 机 来 实现 。 从 广义 的 观点 来 看 该 类 算法 是 如 下 进行 的 。 
首先 ,生成 若干 个 分 类 器 , 称 为 一 个 种 群 (population) ,其 中 的 每 一 个 个 体 分 类 器 都 或 多 或 少 的 
与 其 他 个 体 有 所 不 同 。 然 后 ,依据 一 个 典型 的 分 类 任务 的 完成 情况 ,比如 统计 训练 样本 的 识别 
率 , 可 对 每 一 个 个 体 分 类 器 进行 评价 或 估计 得 分 (score) 。 为 了 同 生 物 学 的 术语 进行 类 比 ,得 
分 (一 个 标量 ) 有 时 被 称 为 “适应 度 ” 或 “ 适 值 随 数 ”(fitness)。 这 样 ,将 分 类 器 按照 得 分 高 低 排 
序 , 并 且 保 留 其 中 一 部 分 得 分 高 的 分 类 器 。 同 样 用 生物 学 的 术语 , 这 就 是 “ 适 者 生存 ”(surviv- 
al of the fittest), MÆ ,我们 随机 地 改变 一 下 “生存 ?下 来 的 分 类 器 ,以 产生 下 一 代 ( 子 代 或 后 
代 ) 种 群 。 部 分 子 代 分 类 器 将 有 比 其 父 代 更 高 的 得 分 ,而 男 一 部 分 的 得 分 较 低 。 重 复 进行 上 述 
过 程 。 评 价 每 一 个 分 类 器 性 能 ,保留 其 中 分 数 最 高 的 ,随机 改变 以 产生 下 一 代 , 继 续 反 复 执行 。 
从 某 种 程度 上 来 说 , 正 因为 有 一 个 排序 和 挑选 的 过 程 ,每 一 代 的 平均 得 分 都 要 比 上 一 代 略 高 一 
些 。 如 果 到 了 茶 一 代 , 其 中 性 能 最 好 的 那个 分 类 器 个 体 的 得 分 已 经 超过 了 某 个 预期 的 判决 门 
限 , 则 进化 过 程 停 止 。 

本 法 由 于 采用 了 随机 扰动 的 方法 ,这 将 依赖 于 分 类 器 的 基本 表达 方式 。 这 里 我 们 主要 介 
绍 两 种 表达 方式 : 即 基于 二 进 制 位 串 的 (用 于 基本 遗传 算法 ), 和 基于 计算 机 程序 片断 的 (用 于 
遗传 规划 算法 )。 两 种 方法 共同 的 和 关键 的 特点 在 于 有 时 允许 分 类 占有 较 大 改变 。 这 种 大 的 
改变 和 人 允许 随机 扰动 意味 着 进化 算法 即使 在 极度 复杂 的 非 连续 空间 或 “适应 度 地 形 曲面 ?情况 
下 ,也 能 搜索 到 好 的 解 。 而 这 种 情况 通常 很 难 用 梯度 下 降 算 法 求解 。 

7.5.1 遗传 算法 

在 基本 遗传 算法 中 ,每 个 分 类 器 的 基本 表达 是 一 个 二 进 制 位 串 , 称 为 染色 体 。 从 染色 体 到 
特征 及 分 类 器 其 他 环节 的 映射 同 问 题 领域 有 关 。 设 计 者 往往 有 很 大 的 自由 来 指定 上 述 映射 。 
在 模式 分 类 中 ,个 体 的 得 分 党 名 选用 对 训练 样本 分 类 正确 率 的 某 种 单调 图 数 , 有 时 可 能 还 加 上 
防止 "过 拟 合 ” 的 惩罚 项 。 可 用 一 个 预期 的 适应 度 值 8 作为 停止 准则 。 在 深入 研究 以 上 要 点 之 
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前 ,我 们 首先 进一步 明确 一 下 基本 遗传 算法 的 结构 ,然后 再 转向 讨论 位 于 算法 中 心地 位 的 遗传 [373 


算 子 的 概念 。 后 面 还 将 谈 到 交叉 率 Po MERR P ma AIE. 
图 7-13 示 出 了 采用 算法 4 的 分 类 器 种 群 的 进化 过 程 。 


算法 4 (基本 遗传 算法 ) 
1 begin initialize 9, P., , P mu ;上 ;和 NN- 位 染色 体 
2 do 确定 每 个 染色 体 的 适应 度 ,f;,i 二 1,*…,L 














3 染色 体 排 序 
4 do 选择 得 分 最 高 的 两 个 染色 体 
5 if Rand[0,1)< P., then 交叉 一 对 随机 选择 的 位 
6 else 以 慨 率 Pre 改变 每 一 位 ;删除 父 染色 体 
7 until NN 个 子 代 被 创建 
8 ”until 任 何 染色 体 的 得 分 超过 9 
9 return 最 高 适应 度 的 染色 体 ( 最 佳 分 类 器 ) 
10 end 
选民 
[e— N] i HEF Y 和 复制 品 
Ee ii (marian 
| Sh 01001010 | l 10100 k (11010 l l 
Y; wai 111011101 EET g 
父 本 RTR 


I-13 基本 遗传 算法 是 一 个 随机 和 迭代 搜索 算法 。 在 第 k 代 的 种 群 中 存在 工 个 分 类 器 个 体 ,其 中 
每 一 个 都 是 用 一 个 长 度 为 N 的 二 进 制 位 串 表 示 , 称 为 染色 体 ( 在 图 的 左边 )。 每 个 分 类 器 根据 它 的 分 
类 任务 的 完成 情况 进行 评价 或 计 分 ,这 样 得 到 工 个 标量 f;。 染 色 体 根据 得 分 来 排序 。 按 照 得 分 由 高 
到 低 顺序 ,对 部 分 染色 体 执行 诸如 复制 .交叉 .变异 等 遗传 运算 以 得 到 染色 体 的 下 一 代 。 重 复 上 述 循 
环 直到 某 个 分 类 器 超过 某 个 预定 的 得 分 门限 值 


遗传 算 子 

有 3 种 基本 遗传 算 子 控制 着 染色 体 的 遗传 复制 过 程 ,也 就 是 算法 4 的 6.7 行 描述 的 产生 
子 代 的 过 程 和 改变 染色 体 的 过 程 ( 如 图 7-14). 

复制 (replication) 染色 体 被 原样 复制 一 遍 , 不 发 生 任 何 改变 。 

ZZ N (crossover) ”交叉 是 把 两 条 染色 体 混合 或 配对 的 过 程 ,得 到 两 条 新 的 染色 体 。 在 染 
色 体 上 随机 确定 一 个 位 置 并 截断 ,将 A 染色 体 的 第 一 部 分 与 B 染色 体 第 二 部 分 连接 , 男 一 半 
也 如 此 。 一 条 染色 体 发 生 交 叉 的 概率 在 算法 4 中 用 P., 表 示 。 

变异 (mutation) ”变异 是 允许 每 个 位 以 一 个 很 小 的 概率 改变 自身 ,比如 从 0 变 成 1, 或 者 
相反 。 变 异 的 概率 在 算法 4 中 用 已 .表示 。 

还 有 其 他 一 些 遗 传 算 子 也 可 能 被 采用 ,例如 反 转 , 即 染 色 体 头 尾 颠倒 一 次 。 该 算 子 用 的 机 
会 并 不 多 ,因为 反 转 操作 往往 会 将 本 来 适应 度 已 经 很 高 的 父 本 染色 体 , 变 成 得 分 很 低 的 子 代 染 
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色 体 。 以 后 ,我们 还 将 介绍 另外 一 种 算 子 一 一 插 和 人 (insertion) 。 


父 本 
(KAR) 


A 





010100101001010101111000100011171010010 A Oe POCO TO O00 LUO on mii ili page a akg yay aed 
TOTO 100 10100 TOTO 10 TT NO SD | 100101 10101001110 SIOK ATDDNOOOOITIOOLITETONIOOI TOTON 
0o 0110000101001010 iia 
复制 XN AE 
TR 
(k+l fÈ) 
Kl 7-li 由 3 种 基本 遗传 算 子 可 以 将 染色 体 变 换 成 其 子 代 染 色 体 。 在 复制 中 ,染色 体 不 发 生 改 


变 。 交 叉 是 把 两 条 染色 体 混 合 或 配对 的 过 程 ,得 到 两 条 新 的 染色 体 。 在 染色 体 上 随机 确定 一 个 位 

置 并 截断 ,将 A 染色 体 的 第 一 部 分 与 B 染色 体 第 二 部 分 连接 , 另 一 半 也 如 此 。 变 异 是 给 每 个 位 赋 

一 个 很 小 的 改变 自身 的 概率 
染色 体 表 达 

用 遗传 算法 设计 分 类 器 时 ,必须 指定 从 染色 体 自身 到 分 类 器 各 个 特性 的 映射 关系 。 当 然 ， 
这 种 映射 依赖 于 分 类 器 的 具体 形式 和 问题 的 领域 。 最 早期 和 最 简单 的 一 种 表达 方法 是 令 染 色 
体 中 各 个 位 表示 一 个 具有 固定 权 值 的 两 层 感知 器 网 络 的 各 个 特征 (参见 第 5 章 ) 。 这 种 特殊 的 
映射 方法 的 主要 优点 是 ,染色 体 中 不 同 的 片断 不 因 交 叉 运 算 而 改变 ,这 使 得 识别 器 可 以 分 别 识 
别 输入 特征 的 不 同 部 分 ,例如 印刷 字符 的 上 一 半 和 下 一 半 。 这 样 做 的 结果 是 ,交叉 运算 有 时 会 
为 一 个 印刷 字符 的 上 半 部 分 从 某 个 染色 体 中 取得 好 的 片断 ,而 为 下 半 部 分 从 另 一 个 染色 体 中 
取得 好 片断 ,因而 合成 一 个 总 体 性 能 优越 的 分 类 器 。 

男 一 种 表达 方法 是 令 染 色 体 的 不 同 片 断 表示 一 个 具有 固定 拓扑 的 多 层 神经 网 络 的 各 个 权 
值 。 类 似 地 ,染色 体 也 可 以 用 于 表达 网 络 的 具体 拓扑 结构 。 比 如 , 某 个 特定 位 的 置 位 表明 某 两 
个 特定 的 神经 元 之 间 存 在 互 连 。 还 有 一 种 自然 的 表达 方法 , 即 用 各 个 位 去 表达 一 棵 判决 树 分 
类 器 的 特性 ,如 图 7-15 所 示 。 
得 分 

对 c -类 分 类 问题 ,通常 最 简便 的 做 法 是 进行 c 次 二 分 法 操作 ,每 一 次 将 一 个 不 同类 别 mw 
与 其 他 所 有 类 别 w),j 关 i, 区 分 开 。 进 行 分 类 时 ,测试 模式 依次 提供 给 每 一 个 二 分 法 ,并 进行 相 
应 的 类 别 标记 。 分 类 器 的 设计 目标 是 对 新 模式 同样 具有 高 的 识别 率 , 或 者 低 的 预期 分 类 代价 
〈 假 如 每 次 决策 都 有 相应 代价 的 话 )。 上 述 目标 将 体现 在 遗传 算法 的 得 分 和 选择 机 制 中 。 用 训 
练 样本 集合 的 分 类 正确 率 作 为 得 分 标准 是 很 自然 的 做 法 。 正 如 我 们 以 前 多 次 看 到 的 那样 ,分 
类 器 存在 过 分 微调 到 特定 训练 集 上 的 危险 (可 以 非 正 式 地 用 一 般 学 习 问 题 中 的 术语 “过 拟 合 ” 
来 表述 这 种 搜索 中 的 危险 )。 一 种 避免 "过 拟 合 ” 的 方法 是 在 适应 度 范 数 中 增加 对 分 类 器 复杂 
度 的 惩 玉 项 。 另 外 一 种 方法 是 运用 停止 准则 。 由 于 对 分 类 器 复杂 度 的 准确 衡量 和 停止 准则 的 
恰当 选择 都 和 具体 问题 有 关 , 这 些 参数 的 设置 很 难 有 明确 的 方针 。 因 此 在 实践 中 ,设计 者 必须 
做 好 针对 具体 问题 具体 探究 这 些 参数 的 准备 。 
选择 

所 谓 选 择 , 是 指 确定 在 某 一 代 中 哪些 染色 体 可 以 作为 父 本 为 下 一 代 提 供 遗 传 信息 。 到 这 
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图 7-15 ”利用 遗传 算法 进行 模 
式 识别 的 一 种 自然 映射 方法 是 : 
从 一 个 二 进 制 串 到 一 棵 二 叉 分 
类 树 。 这 里 示 出 的 是 一 个 简单 
二 叉 判 定 树 。 本 例 中 每 个 节点 
都 查询 如 下 问题 ,“Is 土 zj; <9”, 
并 且 用 一 个 9- 位 的 串 来 表达 。 
其 中 最 高 位 表示 其 符号 ,接着 的 | i 
两 位 是 待 查 询 的 特征 ,余下 的 6 | 








位 是 阔 值 9 的 二 进 制 。 例 如 ,图 Æ  #£ | & = 
中 最 左边 的 节点 编码 了 规则 : 11010100101011010f11001010h 1011000:K01100010b0101100:b01010110 
“Is 十 za<41?”。( 在 实践 中 ,4- / \ nek 

特征 的 问题 常常 需要 更 大 一 些 

的 树 。) 分 类 时 ,测试 模式 首先 提 ae RES 

供给 顶层 节点 ,根据 其 判决 ,分 BJE 

支 到 左边 或 者 右边 的 下 层 节点 。 

持续 上 述 过 程 直到 模式 获得 一 

个 最 终 的 类 别 标记 为 止 (参考 pi 

第 8 BH) 


里 为 止 ,我 们 都 假定 染色 体 已 经 被 打分 ,并 且 按 照 适 应 度 高 低 排序 和 选择 ,直到 生成 下 一 代为 
止 。 这 有 利于 种 群 向 着 得 分 高 的 方向 进化 。 

虽然 如 此 ,从 每 一 代 进 化 到 下 一 代 所 获得 的 平均 性 能 改良 还 依赖 于 每 一 代 中 个 体 间 得 分 
的 差异 程度 的 大 小 。 并 且 由 于 标准 适 值 选择 机 制 未 必 能 给 出 差异 足够 大 的 子 代 , 其 他 的 选择 
机 制 被 证 明 更 有 效 。 其 中 ,主要 的 方法 有 所 谓 的 “比例 适 值 选 择 ” 或 “比例 适 值 复制 ”, 即 是 ， 
选中 某 条 染色 体 的 概率 正比 于 其 适 值 函数 。 这 样 ,对 于 高 适应 度 的 染色 体会 优先 做 出 选 
择 , 但 是 ,对 于 低 适 应 度 的 染色 体 也 偶尔 会 被 选中 ,由 此 保留 了 种 群 的 多 样 性 ,提高 了 种 群 的 
差异 。 

该 方法 的 男 一 种 小 小 的 修改 是 令 选择 概率 正比 于 适应 度 的 某 个 单调 递增 函数 。 如 果 该 函 
数 具有 正 的 二 阶 导 数 , 那 么 高 适应 度 染色 体 被 选中 的 概率 就 被 增强 了 。 上 述 做 法 的 一 个 版 本 
XT 30(21) 4) Boltzmann 因子 的 启发 。 即 具有 适 值 f; 的 染色 体 ; 被 选中 概率 为 


efi/T 


一 一 一 24 
E[efi/T] a 


P(i) = 
其 中 的 期 望 示 对 当前 代 求 出 的 , 工 是 控制 参数 ,可 以 不 严格 的 认为 是 温度 。 在 进化 的 早期 , 温 
度 要 设 得 很 高 ,允许 所 有 的 染色 体 可 以 等 概率 的 选择 。 而 在 进化 的 后 期 ,温度 要 求 很 低 , 以 保 
证 选择 集中 在 最 优 分 类 器 周围 。 以 上 搜索 过 程 用 生物 学 的 类 比 就 是 ,在 搜索 的 早期 ,种群 保持 
充分 的 多 样 性 ,并 且 在 整个 适 值 地 形 曲 面 上 广泛 的 搜索 可 行 区域 ; 到 后 来 ,种 群 保持 特异 性 , 集 
中 在 一 个 很 小 的 最 有 和 希望 的 最 优 分 类 器 周围 搜索 。 
7.5.2 其 他 启发 式 方法 
偶尔 也 采用 其 他 一 些 启发 式 规 则 。 其 一 ,是 有 关 交 叉 率 P,, 和 变异 率 P。 的 自 适 应 调节 
的 。 如 果 这 些 “ 率 ” 太 低 ,那么 从 一 代 进 化 到 下 一 代 所 引起 的 平均 性 能 改善 将 很 少 ,搜索 过 程 也 
将 不 切实 际 的 长 。 相 反 的 ,如 果 这 些 “ 率 ” 太 高 ,那么 进化 将 失去 方向 ,而 变 成 十 分 低 效 的 盲目 
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随机 搜索 。 我 们 可 以 通过 监视 每 一 代 的 平均 适 值 函 数 的 改善 情况 来 调整 交叉 率 和 变异 率 , 以 


保证 上 述 改善 的 迅速 进行 。 在 实践 中 ,可 以 把 上 述 “ 率 ”也 同样 编码 在 染色 体 串 中 ,好 让 算法 本 
身 为 它们 也 进化 出 合适 的 值 。 

另外 一 种 启发 式 时 采用 3- 元 组 或 六 元 组 来 表示 染色 体 , 而 不 是 常规 的 二 进 制 位 串 。 这 种 
表示 方式 虽然 在 算法 层次 上 几乎 没有 改进 ,但 是 却 可 以 使 分 类 映射 关系 更 加 自然 和 易于 计算 。 
比如 ,一 个 3- 元 组 染色 体 可 能 更 适合 去 描述 具有 3 分 支 的 判定 树 分 类 器 。 有 了 时 ,也 可 以 采用 
不 等 长 的 染色 体 串 去 实现 上 映射。 例如 ,如 果 染 色 体 的 位 串 用 来 代表 神经 网 络 的 权 , 那 么 ,更 长 
的 染色 体 串 表示 更 多 隐 和 节点 的 网 络 。 在 这 种 情况 下 ,可 运用 “插入 ”遗传 算 子 , 它 可 以 依 一 个 小 
概率 将 若干 位 插入 到 另外 一 个 染色 体 的 某 个 随机 位 置 上 。 这 种 “凌乱 ”的 遗传 算法 与 下 面 将 要 
讲 到 的 遗传 规划 有 很 好 的 对 应 关系 。 
7.5.3 ”遗传 算法 如 何 起 作用 

由 于 当中 牵扯 到 许多 启发 式 的 选择 问题 以 及 参数 设置 问题 ,所 以 很 难 对 分 类 器 设计 的 进 
化 计算 方法 作 严 格 的 理论 陈述 。 搜 索 时 间 和 分 类 性 能 依赖 于 位 串 的 长 度 ,种群 的 规模 、 交 叉 和 
变异 率 .特征 选取 和 染色 体 到 分 类 器 的 映射 关系 .问题 的 内 在 复杂 度 , 以 及 与 其 他 启发 式 有 关 
的 参数 设置 等 问题 。 

如 果 限 制 遗 传 算法 只 能 运用 变异 和 复制 算 子 ,那么 它 就 退化 为 一 个 典型 的 随机 搜索 算法 。 
而 交叉 运算 的 引入 一 一 它 将 两 个 不 同 的 染色 体 交 配 一 一 提供 了 一 种 完全 不 同 的 搜索 方式 。 这 
种 方式 在 随机 文法 中 (第 8 章 ) 根 本 没有 对 应 的 算法 。 交 又 通 过 选择 、 反 转 和 “重组 ”染色 体 片 
断 起 作用 。 如 有 果 这 些 片 断 能 够 忠实 的 代表 基本 功能 模块 ,那么 遗传 算法 可 望 得 到 更 好 的 性 能 。 
而 要 确保 这 一 点 的 惟一 途径 是 对 问题 领域 和 分 类 器 形式 有 充分 的 先 验 知识 。 
“7.6 遗传 规划 

遗传 规划 与 基本 遗传 算法 有 同样 的 算法 结构 ,但 是 在 分 类 器 的 表达 上 有 所 不 同 。 染 色 体 
不 再 由 位 串 组 成 ,而 是 采用 了 由 数学 运算 符 和 变量 构成 的 计算 机 代码 片断 。 遗 传 算 子 多 少 也 
有 些 改 变 , 并 日 “插入 ” 算 子 将 起 到 相当 重要 的 作用 。 如 图 7-16 所 示 , 有 4 种 基本 的 遗传 规划 
算 子 : 


父 本 
(大 代 ) 





B mim (2) 007 ©) om) 


{OR (AND (NOT MO) (NOT 21) )(AND WO Xij) (OR (AND (MOF NOp(MOT Xij) (AND XO X1)) IE AND (NOT 20) (WOT X1)) (AM KO X1) 
(OR (ASD (NOT 40) (MOT X1) HAWD HD X1)) (OR HAND BP 10) (NOT KL) (AND mayo) (R OC (KOT (OT Lj) (AND © Xij) (0 SAND [MOT 其 iT NN |" 


(OR (AND (22) (MOT x0) ) ST 
复制 FEW 变异 HA 


FR 
(Kk+1 代 ) 
Ml o 遗传 规划 的 4 种 基本 运算 ,用 于 将 一 代 的 片断 变 成 下 一 代 。 复 制 并 不 改变 片断 。 交 叉 
是 将 两 个 片断 混合 或 交配 。 其 中 在 片断 A 的 某 个 随机 选择 的 允许 位 置 截断 ,对 片断 B 也 这 样 , 然 
后 将 A 的 前 半 部 分 和 B 的 后 半 部 分 连接 , 另 一 半 也 如 此 ,这 样 就 得 到 两 个 子 代 片断 。 在 变异 中 , 随 
机 选择 的 元 素 以 小 概率 替换 另外 的 元 素 , 但 是 要 替换 的 元 素 必 须 是 同一 类 型 。 举 例 来 说 ,数字 可 
以 换 成 数字 , 单 变量 运算 符 可 以 换 成 单 变 量 运 算 符 等 。 对 于 插入 ,一 个 随机 选择 的 元 素 以 小 概率 
更 换 为 相 容 的 片断 ,以 保证 文法 合法 和 有 意义 
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复制 ”将 片断 简单 的 不 加 任何 改变 的 复制 一 遍 。 

交叉 ”将 两 个 片断 混合 或 者 交配 ,在 代码 片断 A 上 随机 确定 一 个 位 置 并 截断 , 将 A 的 第 
一 部 分 与 片断 B 的 第 二 部 分 连接 , 另 一 半 也 如 此 。 这 样 得 到 两 条 新 的 片断 。 

变异 ”变异 是 允许 片断 中 每 个 元 素 以 一 个 很 小 的 概率 改变 自身 。 这 种 改变 必须 要 遵守 片 
断 的 文法 规则 。 例 如 ,一 个 数字 可 以 改变 为 另外 一 个 数字 ,一 个 单 变 量 的 运算 符 可 以 用 另外 一 
个 同类 型 的 运算 符 替 代 , 等 等 。 

插入 插入 运算 是 将 一 个 片断 中 的 一 个 元 素 用 另外 一 个 随机 选择 的 片段 代替 。 

在 c- 类 分 类 问题 中 ,与 遗传 算法 中 的 做 法 相同 ,最 简单 的 是 进行 c 次 二 分 法 操作 。 如 果 
某 个 分 类 器 的 输出 为 正 值 , 则 测试 样本 属于 该 类 ,否则 不 属于 该 类 。 
遗传 表达 

一 个 规划 过 程 可 以 用 某 种 计算 机 语言 来 表示 。 语 言 的 选择 可 以 影响 规划 问题 的 复杂 度 。 
语法 复杂 的 语言 ,比如 C 或 C++, 因 其 过 于 复杂 而 不 宜 采 用 。 语 法 简单 的 语言 ,比如 Lisp, 就 
有 其 优越 性 。 很 多 Lisp 表达 式 都 可 以 写作 如 下 的 形式 :(《operator》 《operand》《operand》), 即 
(< 操作 符 〉《 操 作 数 《操作 数 〉)。 这 里 的 《operand) 可 以 是 常量 ,变量 或 其 他 表达 式 。 例 如 , 表 
ARC x 2) 和 (x 3( 十 y 5)) 分 别 是 算术 表达 式 (x 十 2) 和 3 x* (y 十 5) 的 合法 的 Lisp ÉR. 
这 种 表达 式 易 于 用 二 叉 树 的 形式 表示 ,其 中 的 操作 符 是 一 个 节点 ,而 两 个 操作 数 分 别 是 左右 分 
支 ( 图 7-17)。 

“17 17 与 图 7-15 和 第 8 章 父 本 

的 判定 树 不 同 的 是 ,这 里 的 树 

仅仅 为 了 说 明 实 现 单一 函数 的 

Lip 表达 式 。 例 如 ,右上 角 的 

BH SE BE Cr. re) / (x (Tr ))。 

在 父 本 树 上 随机 选择 容许 截断 

位 置 进行 交叉 运算 , 父 树 1 的 

左边 与 父 树 2 的 右边 相连 , 另 

一 半 也 一 样 。 得 到 两 个 子 树 。 

得 到 的 逻辑 函数 具有 隐 含 的 阔 

值 , 可 以 用 于 分 类 。 如 果 为 正 ， 

则 是 w 类 ,否则 不 是 w 类 








子 代 
( k+1 代 ) 
无 论 使 用 何 种 语言 ,遗传 规划 中 的 变异 运算 必须 用 常量 或 变量 来 替换 常量 或 变量 . 运算 
符 也 必须 用 相 容 的 运算 符 来 替换 。 同 样 , 运 算 的 结果 也 必须 是 满足 合法 句法 规则 有 歼 绪 采 。 
然而 有 时 也 会 产生 不 合 句 法 规则 的 结果 片断 ,此 时 ,常规 的 做 法 是 运用 一 个 “打包 峰 ”(wrap- 
per) , 它 是 一 段 程序 ,其 作用 是 判断 某 个 片断 是 否 合 法 ,用 它 可 以 删除 不 合法 的 片断 。 
与 遗传 算法 一 样 ,要 给 遗传 规划 找 一 个 严格 的 理论 表述 几乎 是 不 可 能 的 。 即 是 可 以 从 茶 
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个 具体 领域 (比如 控制 或 函数 优化 问题 ) 的 模拟 试验 学 到 很 多 经 验 法 则 ,也 无 法 保证 可 以 推广 


到 其 他 领域 ,比如 分 类 问题 。 诚 然 , 只 有 当 与 分 类 器 的 表达 方式 相 匹配 ,以 及 运算 符 比 较 简 单 
《比如 说 乘法 .除法 .平方根 及 逻辑 取 反 等 ) 时 ,本 方法 的 工作 表现 才 最 好 。 

虽然 这 样 ,我 们 还 是 认为 , 随 着 计算 费用 的 持续 下 降 ,模式 分 类 的 问题 将 更 多 的 借助 于 强 
大 的 计算 能 力 , 而 不 是 更 加 精巧 和 细致 的 分 类 器 设计 来 解决 。 在 这 种 趋势 中 ,进化 计算 方法 是 
大 有 前 途 的 方法 。 


本 章 小 结 


当 一 个 模式 识别 问题 涉及 离散 的 模型 ， 或 者 有 过 高 的 复杂 度 , 而 常规 的 解析 方法 或 梯度 
下 降 算 法 都 无 能 为 力 时 ,那么 可 以 尝试 采用 随机 搜索 技术 一 一 即 在 某 个 层次 上 运用 随机 性 去 
搜索 模型 参数 。 模 拟 退 火 ,来 源 于 物理 学 中 的 金属 退火 处理 ,由 下 述 过 程 构 成 :随机 扰动 系统 ， 
同时 逐渐 降低 系统 的 随机 程度 ,直到 最 终 得 到 一 个 最 优 解 。Boltzmann 算法 则 通过 训练 网 络 
的 互 连 权 ,使 得 最 终 得 到 正确 输出 的 概率 提高 。 这 种 算法 一 方面 基于 模拟 退火 , 另 一 方面 又 运 
用 了 Kullback-Liebler 散 度 的 梯度 下 降 过 程 。 该 散 度 可 以 用 来 刻 划 两 种 情况 下 的 输出 可 见 状 
态 的 概率 分 布 的 差异 度 。 第 一 种 情况 是 输出 节点 第 位 到 已 知 训练 类 别 上 。 而 男 一 种 情况 是 在 
满足 网 络 总 能 量 前 提 下 人 允许 输出 节点 自由 变动 时 的 概率 分 布 。 

一 些 图 示 模 型 ,比如 HMM 或 贝 叶 斯 信任 网 ,都 可 以 找到 对 应 的 结构 化 Boltzmann 网 络 
实现 ,这 也 促成 了 Boltzmann 算法 的 新 的 应 用 领域 。 基 于 进化 的 搜索 方法 一 一 遗传 算法 和 遗 
传 规划 一 一 能 够 在 设计 者 指定 的 空间 中 展开 高 度 并 行 化 的 随机 搜索 。 遗 传 算 法 中 的 基本 表达 
方式 是 二 进 制 位 串 ,或 称 为 染色 体 , 但 在 遗传 规划 中 采用 的 是 计算 机 代码 片断 。 种 群 的 差异 性 
是 通过 交叉 变异 和 揪 和 人 等 遗传 算 子 来 实现 的 。 与 所 有 分 类 方法 一 样 ,特征 选择 的 越 好 ,分 类 性 
能 就 越 好 。 有 时 还 需要 选择 若干 启发 式 ,或 者 设 定 一 些 参 数 。 

随 着 计算 费用 的 持续 降低 ,这 种 计算 密集 型 的 算法 ,如 Boltzmann 网 络 或 进化 计算 方法 ， 
将 变 得 越 来 越 流行 。 


文献 和 历史 评述 


搜索 问题 是 计算 机 科学 和 人 工 智 能 的 中 心 研究 兴趣 之 一 。 由 于 其 范围 太 宽 ,无 法 在 这 里 
展开 讨论 ,虽然 如 此 ,诸如 深度 优先 .宽度 优先 .分 支 界定 A* 等 算法 [20j 等 技术 ,也 经 常 出 现 
在 模式 识别 的 应 用 中 。 因 此 ,对 实践 者 来 说 ,有 上 必要 具有 相关 的 基础 知识 。 一 个 好 的 综述 可 以 
参考 [34]。 有 许多 关于 人 工 智能 的 教科 书 , 比 如 L47,55]j 和 [67]j。 说 到 严格 性 和 完整 型 ,恐怕 
没有 别 的 文献 可 以 同 Knuth 的 著作 [33j 相 提 并 论 。 

有 一 个 所 谓 的 “无 穷 猴子 定理 ”是 由 Arthur Eddington BHM. C EW, RA EH 
多 只 猴子 ,每 一 只 都 在 连续 敲打 自己 的 一 台 打 字 机 ,总 有 一 天 ,将 有 一 只 猴子 可 以 碰巧 “打出 ” 
《哈姆雷特 》 剧 本。 这 个 定理 反映 了 搜索 问题 的 两 个 方面 折 中 的 一 个 极端 情况 , 即 有 关 最 优 解 
存在 的 位 置 的 先 验 信 息 和 搜索 最 优 解 所 付出 的 努力 的 多 少 。 

在 20 世纪 50 年 代 初 ,电子 计算 机 的 投入 使 用 ,使 得 早先 的 高 度 随机 搜索 的 算法 尝试 成 为 
可 能 。 其 中 ,特别 值得 注意 的 是 Metropolis 及 其 同事 的 有 关 化 学 过 程 模拟 的 先驱 工作 L41]. 
而 随机 方法 用 于 模式 识别 的 最 有 影 啊 力 的 早期 工作 是 Selfridge 完成 的 “混杂 学 习 算 法 ”(Pan- 
demonium)[57], Kirpatrick, Gelatt, Vecchi[ 31] 与 Cerny[64] 各 自 独 立 的 将 Boltzmann 因子 
的 概念 引入 随机 搜索 ,开创 了 模拟 退火 算法 的 先河 。 用 我 们 现 有 程度 的 数学 基础 讲解 的 有 关 
Boltzmann 算法 的 统计 物理 原理 可 以 从 [32j] 中 找到 。 
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随机 二 元 体系 的 物理 模型 是 由 Wilhemlm Lenz 与 1920 年 提出 ,但 后 来 这 个 模型 更 多 地 
与 他 的 博士 生 Ernst Ising 联系 在 一 起 ,并 且 被 Rudolf Peierls 于 1936 FERRA “Ising 模型 ” 
( 伊 辛 模型 )。 后 来 它 入 生 了 大 量 的 理论 和 仿真 成 果 [L21j]。 

Ackley, Hinton 和 Sejnowski 提出 将 模拟 退火 用 于 学 习 算 法 L2]。 关 于 这 方面 的 一 本 好 
的 参考 书 是 [1], 它 讨论 了 温度 初始 化 的 方法 ,并 且 是 图 7-10 的 来 源 。Peterson 和 Anderson 
引进 了 确定 性 退火 和 均 场 Boltzmann 学 习 算 法 。 他 们 还 指出 在 个 别 的 情况 下 , 均 场 退火 将 导 
致 非 最 优 解 [51]。Hinton 指出 确定 性 Boltzmann 学 习 等 价 于 在 权 值 空间 内 执行 最 速 下 降 方 
法 [22j。 

有 很 多 论文 研究 了 结构 化 Boltzmann 网 络 , 包 括 Hopfield 有 影响 力 的 关于 模式 补足 和 上 自 
联想 的 论文 [26]。 关 于 本 书 引 用 的 Hopfiled 网 的 线性 存储 能 力 , 以 及 部 分 存储 的 n logn X 
系 , 可 以 在 [40,65] 和 [66] 找 到 。 文 章 中 提出 的 学 习 规 则 ,可 以 从 [59][L60j 的 学 习 和 矩阵 中 找到 
起 源 。 和 谐 网 (harmonium) ,另外 一 种 两 层 Boltzmann 网 络 的 变形 ,更 多 出 于 历史 上 的 兴趣 
[15][58]. Boltzmann 网 络 于 图 示 模 型 (如 HMM) 的 关系 可 以 参考 [28][38]j[56], 其 中 [56] 
是 本 书 7.4 节 讨论 的 源泉 。 在 Boltzmann 机 中 实现 约束 的 方法 是 由 L43j 提 出 的 ,而 L50j 介 绍 
了 一 个 二 阶 剪 枝 算法 。 

Boltzmann 学 习 已 经 用 到 很 多 的 实际 的 模式 识别 问题 中 。 其 中 最 突出 的 有 语音 识别 L8] 
[52j]、 随 机 图 像 恢复 或 模式 补足 [17]。 因 为 Boltzmann 计算 代价 虽 高 ,但 是 适合 VLSI 实现 ， 
文献 [24]L44][45] 介 绍 了 专用 芯片 的 研制 过 程 。 图 7-3 的 构 型 排列 的 顺序 是 一 种 格雷 码 
(Gray code) ,文献 L19] 给 出 了 构造 这 种 码 的 一 种 优美 的 方法 。 

一 些 受 生物 学 进化 启发 的 一 些 早期 方法 由 文献 [13]L14j 提 出 。 但 它们 的 计算 能 力 都 太 差 
了 ,以 至 于 只 能 适用 于 (规模 很 小 的 )“ 玩 具 问 题 "*。 随 后 ,Rechenberg 提出 “进化 策略 ”Cevolu- 
tion strategies) ,并 且 用 到 了 空气 声学 的 设计 问题 [53]。 他 的 早期 工作 并 没有 引入 候选 种 群 的 
概念 ,也 没有 关键 的 交叉 算 子 .。“ 进 化 程序 ”一 一 另外 一 种 早期 进化 计算 的 尝试 一 一 会 保留 性 
能 好 的 父 代 ,但 “进化 策略 ”通常 不 会 。 两 种 方法 都 没有 引入 交配 ( 即 交 叉 ) 算 子 。Holland 在 
1975 年 提出 了 “遗传 算法 所 25] , 正 像 该 算法 自身 的 行为 一 样 ,研究 者 也 对 各 种 问题 进行 了 广 
泛 的 摸索 和 探索 ,比如 搜索 问题 .优化 问题 、 模 式 识别 问题 等 ,以 期 发 现 该 算法 最 适合 的 问题 类 
型 。 文 献 [6] 是 一 篇 综述 ,教科书 的 数量 也 在 迅速 增加 [18jL42], 其 中 后 一 本 中 有 较 严 格 的 数 
学 方法 。Koza 关于 遗传 规划 那 本 书 里 提供 了 很 好 的 介绍 和 生动 的 仿真 实例 L35jL36j, 但 可 惜 
其 中 很 少 有 关于 模式 识别 的 例子 。 还 有 很 多 关于 进化 计算 在 模式 识别 中 应 用 的 论文 集 , 比如 
[49]。 文 献 [12] 是 有 关 进 化 计算 历史 上 重要 的 论文 合集 ,不 能 不 推荐 ,虽然 它 的 标题 容易 误导 
读者 。 有 关 学 习 和 进化 之 间 的 相互 作用 关系 ,有 一 个 迷人 的 效应 BI Baldwin 效应 L23」。 它 表 
明 学 习 会 影响 进化 的 速度 。 太 多 的 学 习 和 太 少 的 学 习 一 样 都 将 减缓 进化 速度 L29]。 进 化 方法 
有 时 会 导致 * 非 最 有 优 解 ”或 “笨拙 的 解 ”, 自然 界 中 这 种 现象 也 时 有 发 生 L61]L62j]。 


er a 
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7.15 

1. 无穷 猴子 定理 的 一 种 版 本 是 :如 果 有 一 只 长 生 不 老 的 猴子 一 刻 不 停 地 随机 地 殴打 键盘 ， 
最 终 将 打出 《哈姆雷特 》 剧 本。 试 估计 其 所 需 时 间 。 假 定 每 秒 打 两 个 字符 ,而 剧本 有 50 
页 ,每 页 80 行 ,每 行 40 字符 。 假 定 只 需要 30 种 不 同 的 字符 ,包括 26 PRM. 
格 、 名 点 、 回 车 和 感叹 号 。 试 着 与 宇宙 的 年 龄 10 年 比较 一 下 。 
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7.2% 

2. 证 明 具 有 式 (1) 的 形式 和 非 对 称 连 接 矩 阵 的 任何 优化 问题 ,都 有 一 个 等 价 的 具有 对 称 
连接 矩阵 的 优化 问题 。 

3. 图 7-2 左边 的 能 量 地 形 曲 面 过 分 复杂 , 因 下 述 原 因 容 易 误 导读 者 : 

Ca) 对 式 (1) 的 优化 问题 ,讨论 图 中 的 连续 空间 与 离散 空间 的 差异 。 

Cb) 图 中 示 出 在 空间 的 中 部 有 一 个 局 部 能 量 极 小 点 , 问 对 于 离散 空间 ,是否 存 在 中 部 的 
极 小 点 ? 

(c) 如 果 令 坐标 轴 是 连续 的 状态 变量 s CH MEW BiB KP). A s: 服从 sigmoid 函数 
(图 7-5) ,试问 能 量 地 形 是 否 可 以 是 非 单调 的 ,就 像 图 7-2 那样 ? 

4. 考虑 对 于 二 值 单元 和 任意 的 权 连 接 ws 的 最 小 化 式 (1) 的 穷 举 搜索 算法 ,假定 单个 处 理 
器 构 型 的 测试 时 间 是 10-* s, 问 对 N=100 的 系统 穷 举 测试 需要 多 少时 间 ? 对 于 N= 
1000 呢 ? 

5. 假定 一 个 处 理 器 计算 一 次 乘 加 wi sis; 的 时 间 是 10-"s, 若 要 优化 式 (1) 的 能 量 函 数 
E=— 1/2}; wysis;: 问 
Ca) 在 一 些 简 化 的 假定 下 , 试 写 出 对 NN 节点 全 互连网 络 穷 举 搜索 该 能 量 函 数 时 所 花 时 

间 的 估计 公式 ? 
(Cb) XF N= 二 1,…,10 ,用 log-log 坐标 绘 出 你 的 公式 。 
C) 多 大 规模 的 网 络 可 以 在 一 天 一 年 一 个 世纪 内 穷 举 搜索 完毕 ? 

6. 进行 必要 的 数学 假定 ,并 解析 证 明 对 于 N 节点 有 互 连 的 网 络 , 当 温度 很 高 时 ,每 一 种 构 
型 都 是 彼此 类 似 的 。 

7. 用 如 下 方式 推导 出 Boltzmann 因子 的 指数 形式 。 考 虑 由 M 十 NN 个 独立 磁体 组 成 的 孤 
立 集 , 每 一 个 可 取 % 一 十 1，5# 一 一 1 .两 个 状态 。 作 用 一 个 外 界 均 匀 磁 场 ;这 意味 着 ， 
s; 二 十 1 时 状态 的 能 量 取 正 ,可 令 它 为 十 1; 而 s =l 时 状态 的 能 量 取 负 , 可 令 它 为 一 1。 
系统 的 总 能 量 为 朝 上 的 磁体 个 数 减 去 朝 下 的 磁体 个 数 , 即 Er = ku — kas QE ka + ka= 
M+N 与 总 能 量 无 关 ) 。 描 述 该 系统 的 一 个 基本 统计 假设 是 各 个 磁体 间 不 相关 。 于 是 
子 系统 (比如 由 NN 个 磁体 组 成 的 系统 ) 具 有 特定 能 量 的 概率 正比 于 所 有 的 具有 该 能 量 
的 构 型 的 数目 。 

(a) 考虑 六 个 磁体 构成 的 子 系统 ,具有 能 量 Ew, 写 出 所 有 具有 Ey 能 量 的 构 型 的 数目 
的 表达 式 K (N ,Ew)。， 

b) 考虑 M 个 磁体 构成 的 子 系统 ,具有 能 量 Em, 写 出 所 有 具有 En 能 量 的 构 型 的 数目 
的 表达 式 K (CM ,Em)。 

O 因为 两 个 子 系统 独立 ,所 以 系统 具有 总 能 量 Er 二 Ew 十 Ew 的 方式 一 共有 KN， 
Ew)K(M,Exm) 种 , 写 出 其 表达 式 。 

Cd) 在 统计 物理 学 中 ,如 果 MSN, WS RB M 就 称 为 “ 热 库 ” 或 “ 热 浴 ”(heat bath). 
在 这 种 情况 下 , 写 出 (c) 中 结果 的 级 数 展开 式 。 

Ce) 用 的 结果 证 明 Ey 具有 Boltzmann 因子 的 形式 e™ 。 

.证明 式 (5) 给 出 的 状态 的 模拟 值 是 如 下 简单 情况 下 在 温度 工时 二 值 变 量 的 数学 期 望 。 
考虑 一 个 单一 磁体 ,作用 上 一 个 外 界 磁 场 , 在 状态 * 为 十 1 时 能 量 为 十 E, ,在 状态 ;为 
一 1 时 能 量 为 一 FE,。 

Ca) 根据 式 (3) 对 两 种 可 能 状态 求 和 ， 试 着 构造 配 分 函数 Z. 
D 回想 一 下 ,在 状态 ;二 十 1 发 现 系统 存在 的 概率 等 于 其 Boltzmann 因子 除 以 配 分 函数 ( 式 


OO 
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(2)), 定义 系统 的 状态 模拟 值 是 ;==E[s] 二 PCs== 十 (十 了 ) 十 PGs 二 一 1)( 一 1)。 证 明 它 
满足 式 (5) 。 
(c) 证 明 在 一 个 大 系统 里 ,其 他 六 一 1 个 磁体 可 认为 是 产生 了 一 个 外 界 均 匀 和 磁场 ( 即 均 
场 近 似 ) , 试 证 明 另 外 一 个 单一 磁体 的 模拟 状态 值 遵 循 式 (5) 中 的 范 数 形式 。 
9. 考虑 Boltzmann 网 络 用 于 XOR 问题 。 已 知 均 是 全 互连网 络 。 
(a) 证 明 一 个 2- 输 入 ,1- 输 出 ( 它 的 符号 给 出 分 类 结果 ) 是 不 能 实现 XOR 的 。( 提 示 ,可 
利用 权 值 的 一 组 不 等 式 关 系 , 试 着 推出 矛盾 。) 
Cb) 证 明 一 个 2- 输 入 ,2- 输 出 (其 中 每 个 表示 一 类 ) 是 不 能 实现 KOR 的 。 
(c) 证 明 一 个 2- 输 入 ,1- 隐 单元 ,2- 输 出 (其 中 每 个 表示 一 类 ) 可 以 实现 XOR, 
10. 考虑 一 个 2- 输 入 ,1- 隐 单元 ,1- 输 出 的 全 互 连 Boltzmann 网 络 , 试 着 手工 构造 所 有 权 
值 ,使 之 实现 XOR, 
7.3 节 
11. 列 出 从 式 (12) 推 导 式 (14) 的 中 间 步 骤 。 注 意 与 式 (10) 的 区 别 。 
12. 确定 一 个 6- 单 元 Hopfield 网 的 权 值 ,利用 如 下 模式 以 及 式 (15) 的 学 习 规 则 : 


x! 二 {十 1, 十 1, +1, 一 1, 一 1, 一 1} 
x? = {+1,-1,4+1,-1, +1, -1} 
x? = (—1, +1, -1, -1, +1, +1} 
(a) 通过 扰动 6 个 单元 的 任 一 个 ,观察 其 能 量变 化 ,说 明 每 个 模式 都 对 应 一 个 局 部 极 


小 。 
Cb) 验证 模式 的 对 称 形 式 也 是 一 个 同样 能 量 的 局 部 极 小 。 
13. 用 8- 单 元 网 络 , 以 及 如 下 模式 重 作 12 题 : 


x! = (41,41, +1, 一 1, 一 1, —1, 一 1, +1} 
x? = {十 1, 一 1, 十 1, 十 1 十 1, 一 1, 十 1, 一 1} 
x? = { 一 1 十 1 —1, —1, +1, +1, -1, +1} 


14. 说 明 在 训练 Boltzmann 网 络 中 ,对 缺损 模式 中 丢失 的 特征 通常 等 价 于 假定 了 一 个 适当 
的 值 。 也 就 是 说 ,给 定 其 他 的 箱 位 状态 ,未 箱 位 的 特征 实际 上 用 的 是 其 最 可 能 的 特征 
值 来 替代 。 
. 说 明 一 个 模式 不 属于 某 类 别 子 集 的 约束 是 如 何 提高 网 络 的 分 类 性 能 的 。 即 如 果 将 错 
误 输 出 节点 箱 位 到 一 1, 如何 能 够 提高 正确 分 类 输出 节点 的 概率 ,直至 在 退火 结束 时 输 
出 节点 变 成 十 1? 
16. 正文 给 出 了 Boltzmann 网 络 隐 单 元 数目 的 下 界 , 当 训练 地 个 模式 ,对 应 的 下 界 是 
[logen 1, 但 是 该 下 界 并 不 紧 , 因 为 有 可 能 没有 权 值 能 够 满足 模式 表达 的 需要 。 试 着 用 
3- 输 入 单元 ,3- 隐 单元 和 单 输出 的 Boltzmann 网 络 求解 3- 位 奇偶 校 验 问题 来 说 明 。 
Ca) 证 明 隐 单元 的 表达 必须 与 输入 单元 等 价 。 
Cb) 证 明 不 存在 2- 层 的 Boltzmann 网 络 可 以 求解 3- 位 奇偶 校 验 问题 ,并 用 它 来 说 明 我 
们 的 下 界 不 紧 的 结论 。 

17, SRS a Boltzmann 网 络 中 的 N 权 值 初始 化 问题 。 令 有 NISN 权 值 连接 到 每 
个 节点 。 假 定 任 何 节点 处 于 状态 十 1, 一 1 的 机 会 都 是 0.5。 我 们 寻找 这 样 的 权 值 初始 
化 的 方案 ,使 得 每 个 单元 上 的 净 激 活 的 方差 大 约 为 1. 0 ,也 就 是 sigmoid 函数 的 末端 线 
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EK. 1 的 方差 为 


Var[};] = 5 Varfwis] = N Var[lw:i; }Varls;] 
j=l 

& Var[L]=1. 0, R fk Varlws ]， 由 此 说 明 权 值 初 始 化 的 范围 是 一 3/N< wy < 

十 V3/N 
18. 证 明 在 某 些 合理 的 条 件 下 , 式 (14) 的 学 习 率 应 满足 T/N ,以 保证 稳定 性 。 

Ca) 对 式 (14) 求 导 , 得 出 赫 森 矩阵 为 

Drr DekL 
3w? IW j OWuv 








1 
一 77 [Elsjsjsusy] 一 E{sisJElsu5v)] 


vie (Em) | 


Cc) 假定 我 们 对 权 归 一 化 (上 hw ll =1) 并 且 有 
$ wij < VN 
ij 


Cb) 利用 它 证 明 


利用 这 个 事实 以 及 (b) 的 结果 ,证 明 De 的 曲率 满足 
w Hw < ae Ko = a 


Cd) i] FA Ba EE BOR a K WEA OR T/N. 
7.4% 
19. 对 任 一 HMM, 对 存在 一 个 等 价 的 Boltzmann 链 , 它 可 实现 同样 的 概率 模型 。 但 是 反 
命题 是 不 成 立 的 , 即 对 任 一 个 Boltzmann 链 , 未 必 有 等 价 的 HMM。 试 着 证 明之 。( 提 
示 :考虑 HMM 中 的 概率 只 能 取 正 ,并 且 满 足 求 和 归 一 化 ,但 是 Boltzmann 的 权 值 没 
有 任何 限制 .) 
20. 图 7-11 中 的 Boltzmann 链 存 在 多 少 条 合法 的 路 径 ? 将 其 表示 成 时 间 步 、 隐 单元 数 和 
可 见 单元 数 的 函数 。 
21. 正文 中 讨论 Boltzmann 链 和 HMM 关系 时 假定 初始 隐 状 态 已 知 。 如 果 初 始 隐 状 态 未 
知 , 试 着 说 明 式 (21) 将 增加 一 项 表示 系统 具有 茶 个 隐 状 态 的 概率 。 
.考虑 图 7-12 的 Boltzmann 拉链 。 互 连 矩 阵 EE 用 来 学 习 快 链 和 慢 链 之 间 的 相关 性 。 证 
明 与 式 (23) 不 同 的 是 , 卫 并 非 简单 对 应 于 转移 概率 。 特 别 是 ,说 明 它 没有 必要 归 一 化 。 
它 一 定 是 正 的 吗 ? 
7.5% 
23. 考虑 六 位 组 成 的 规模 为 工 的 染色 体 种 群 。 


L+2%—1 
Ca) 证 明 不 同 的 种 群 数目 为 (“。。 、 ) 


2 


bo 
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(b) 假定 有 SLL 个 个 体 被 选择 用 来 复制 ,将 父 本 可 能 的 集合 数目 表示 成 上 和 工 ， 
的 函数 。 

Cc) 证 明 (b) 中 车工 ,= 工 , 则 退化 成 (a) 中 的 情况 。 

(d) 说 明 (b) 中 告 上 ,二 1 时 给 出 上 的 情况 。 
7.6% | 
24. 对 下 列 每 个 代码 片断 ,标记 出 可 以 取 两 个 或 多 个 操作 数 的 交叉 操作 符 、 乘 法 操作 符 

Ce ) 以 及 加 法 操作 符 ( 十 ) 的 合理 的 截断 位 置 ， 

(a) ( * (XO(+x4 x8))x5(SQRT 5)) 

Cb) (SQRTCX0(+ x4 x8))) 

Cc) C(x (—( SIN X0)C * (TAN 3.4) (SQRT X4))) 

(d) (x (X0(+x4 x8))x5(SQRT 5)) 

Ce) 将 下 列 Lisp 符号 分 组 ,使 每 个 组 内 的 符号 在 进行 遗传 规划 时 可 用 组 内 其 他 符号 代 











F: 
{+, X3, NOR, * ,X0, 5.5, SQRT, /, X5, SIN, —, —4.5, NOT, OR, 2.7, 
TAN} 
。 ”上 机 练习 
以 下 的 两 个 练习 采用 了 下 表 中 的 数据 ,其 中 十 表示 十 1, 一 表示 一 1。 
一 一 十 一 十 一 十 十 一 十 十 一 十 十 十 一 十 十 十 十 十 一 十 十 
一 一 十 十 一 十 十 十 一 十 十 一 十 一 一 一 十 一 十 一 十 十 一 十 
十 十 十 十 十 一 一 十 一 十 十 十 一 十 十 一 十 一 十 十 一 十 十 十 
一 十 一 十 一 十 十 一 一 十 十 一 一 十 一 十 十 一 十 十 一 十 一 一 
一 一 一 一 十 十 十 一 一 十 一 一 一 一 十 十 十 一 十 十 一 十 十 一 
一 一 一 十 十 十 十 一 一 十 一 一 十 十 一 十 十 一 一 十 一 十 十 一 
一 十 一 十 十 十 一 一 一 一 十 一 十 十 一 一 十 十 十 一 十 一 一 十 
一 十 一 十 十 一 一 十 一 十 一 十 一 十 十 十 十 一 十 十 一 十 一 十 
十 一 十 一 十 一 十 十 一 一 一 十 十 一 十 十 十 十 一 一 十 一 十 十 
十 一 十 一 一 十 十 十 一 十 十 一 十 十 一 十 十 一 一 十 一 十 士 一 
7.2 节 
1. 考虑 一 个 N- 单 元 全 互连网 络 , 其 权 值 在 一 1]/VN<=ws 二 十 1/vVN 范 围 内 随机 选取 。 要 
求 根据 式 (1) 搜 索 全 局 最 小 能 量 。 
(a) 令 N==10, 写 一 个 程序 能 够 在 网 络 的 2 种 构 型 中 寻找 全 局 最 小 能 量 ,并 验证 存在 
两 个 全 局 最 小 能 量 。 


b 写 一 个 程序 执行 下 述 梯度 下 降 算 法 :对 某 一 种 构 型 ,找到 改变 它 的 状态 能 引起 能 量 
下 降 的 具有 最 小 序号 的 单元 。 继 续 迭 代 执 行 ,直到 系统 收 鳅 。 绘 出 能 量 对 和 迭代 次 
数 的 关系 图 。 

Cc) 采用 随机 查询 节点 的 方式 重复 (b) 的 问题 。 
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(d) 4 N=100,1000,10000 时 重 做 (b)。 
(e) 讨论 你 的 结果 ,尤其 要 注意 收敛 性 及 局 部 极 小 问题 。 


.实现 一 个 随机 模拟 退火 算法 ,并 对 下 述 6- 单 元 网 络 实现 能 量 最 小 化 。 已 知 权 值 矩阵 为 


0 5 -3 4 4 1 

5 0 -i 2 -3 4 

| -3 -1 0 2 2 0 
Y=] 4 2 2 0 3 _3 (25) 

4 32 3 0 5 

1 1 0 3 5 0 


(a) 令 温 度 初 始 TC) =10,T0m4+1) =cT(m) ,c 一 0. 9, 
(b) Hi (a) ,但 是 了 (1) 王 5,c 一 0.5 。 


. 用 确定 性 模拟 退火 算法 重 做 上 机 练习 2。 
35 
. 训练 一 个 具有 8- 输 入 ,10- 类 别 输出 的 Boltzmann 网 络 , 实 现 7- 段 数码 识别 (如 图 7-10 所 示 )。 


Ca) 利用 网 络 进行 10 个 数码 的 识别 ,并 验证 左右 数码 均 学 习 了 。 
Cb) 用 下 述 做 法 考察 网 络 的 模式 补足 能 力 , 对 某 个 数码 的 2 种 任 一 个 可 能 模式 都 进行 一 
次 模式 补足 。 通 过 增加 隐 单 元 来 验证 对 某 些 容易 混淆 的 数码 的 补足 能 力 的 增强 。 


. 利用 一 个 8- 输 入 .za 个 隐 单 元 .2- 输 出 的 Boltzmann 网 络 实现 2- 类 分 类 问题 。 


(a) 对 于 zz 一 4 用 上 表 的 wm 和 ws 训练 ,并 试 着 分 类 如 下 模式 ， 
一 一 一 一 十 一 十 十 ,一 十 十 一 十 十 十 十 ,十 十 十 十 十 十 十 十 
(b) 用 ny =6, Bit (a). 
O 用 上 表 的 w 和 ws , 重 做 (a)。 
(d 用 上 表 的 we 和 w; , 重 做 (a)。 


.用 下 列 Boltzmann 网 络 实现 模式 补足 。 有 8- 输 入 .za 个 隐 单 元 、 无 输出 类 别 单元 。 补 


足 的 模式 可 以 从 输入 节点 上 读 出 。 

(a) ng 二 8, 用 网 络 训 练 w 的 10 个 样本 ,并 用 来 补足 如 下 模式 :001010 x , + 1011001, 
0000 *110, 

(b) & ny = 二 2, 重 做 (a)。 

(c) 解释 (a)、(b) 的 差异 。 


A 
.考虑 一 个 具有 2- 输 入 ,1- 输 出 的 贝 叶 斯 置信 网 (第 2 章 )。 其 中 输入 节点 只 同 输出 节点 


相连 ,并 无 其 他 互 连 。 第 一 个 输入 节点 的 可 能 状态 是 x=100,010 或 001 ,而 第 二 个 节 
点 的 可 能 状态 为 y=1000,0100,0010 或 0001。 输 出 节点 为 z—10 3 01, 

(a) 构造 一 个 等 价 的 结构 化 Boltzmann 网 络 。 

(b) 利用 给 定 的 概率 训练 该 网 络 , 提供 的 训练 样本 如 下 : 


概 率 x y Z 
0.2 100 0001 10 
0.3 010 1000 10 
0, 4 100 0100 01 


0.1 001 0010 01 
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(c) 假定 z 表示 的 是 2 中 取 1 的 分 类 结果 , 试 着 对 下 述 模 式 分 类 ， 
{001, 0010} ，{100,000 x }, 其 中 x* 表示 丢失 特 征 。 


7.5 节 


8. 根据 图 7-15 的 表达 方式 ,用 遗传 算法 进化 出 2- 类 分 类 问题 的 分 类 树 ( 需 要 提前 看 一 看 
第 8 章 的 内 容 ) , 令 种 群 规模 工 二 15 ,根据 适应 度 每 次 选取 5 个 染色 体 , 其 中 的 适应 度 取 


自如 下 数据 的 分 类 准确 度 : 


w:(1,5,—1, 3),(—1,5,2,2),(2,3,—-1,0),(€—3,4,—2,—1]) 
w,:(—1,—3,1,2),(—2,4,—-3,0),(—3,5,1,1),¢1,—2,0,0) 
利用 你 的 分 类 器 来 分 类 如 下 数据 :( 一 1,4,1,1),( 一 2,4, 一 1,1),(3,3,0,1)。 


7.6 节 


9. 考虑 用 下 述 4- 特 征 的 两 类 分 类 问题 ,特征 范围 为 
一 1] 二 ZX; 夺 十 1 ,1 二 1,2,3,4 


(a) 随机 在 4 维 空 间 内 生成 50 个 训练 样本 点 ,其 类 别 由 下 式 给 出 : 
œw Xl + 0.5x2 一 0.3x3 一 0.1x4 < 0.5 


人 2 ;一 XX 十 0.2x2 +r 一 0.6x4 < 0.2 


如 果 随 机 选择 的 点 仅仅 满足 其 中 一 个 不 等 式 , 则 标记 相应 类 别 。 千 两 个 都 满足 , 则 


以 50% 概 率 任意 标记 。 者 两 个 都 不 满足 , 则 重新 选择 。 


Cb) 用 遗传 规划 来 进化 一 个 Lisp 逻辑 表达 ,使 得 它 对 mw 为 TRUE, 对 œ A FALSE, 


设 种 群 规 模 为 100 ,每 次 选择 10 个 父 代 片 断 , 绘 出 适应 度 -进化 图 。 


O 重复 (a)(b) ,但 其 类 别 由 下 式 给 出 : 


w :0. 5x1 — 0. 323 + xı xz: —0. 223; — 0. 444 <0. 3 
w :0. 22, $2122 —0. 3x; H0. Griz, <0. 7 
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8.1 引言 


前 面 ,我 们 研究 了 基于 连续 实数 或 离散 数值 的 特征 向 量 的 模式 识别 问题 。 在 所 有 这 些 情 
况 中 ,都 涉及 了 向 量 间 距离 (distance) 度 量 (metric) 的 概念 。 例 如 ,在 最 近邻 分 类 器 中 ,距离 的 
概念 是 最 明显 不 过 了 ,这 也 是 这 个 分 类 方法 的 根本 思想 所 在 。 在 神经 网 络 中 ,如 果 两 个 输入 向 
量 足 够 相似 (接近 ) ,那么 它们 的 输出 也 将 很 相似 。 实 践 中 ,大 多 数 模式 识别 方法 研究 这 类 问 
题 ,其 中 特征 向 量 是 实数 的 ,并 且 有 上 距离 的 概念 。 

然而 ,假定 茶 个 分 类 问题 中 需要 用 到 “语义 数据 ”(nominal data) ,或 称 为 “ 标 称 数据 ”或 “名 
义 数据 ”, 例 如 ,实例 描述 数据 是 离散 的 ,其 中 没有 任何 相似 性 的 概念 ,甚至 没有 次 序 的 关系 。 
考虑 这 样 一 个 问题 ,试图 用 牙齿 的 信息 对 鱼 和 海洋 哺乳 动物 分 类 。 一 些 鱼 的 牙齿 细小 而 精致 

(如 巨大 的 须鲸 ) ,这 种 牙齿 用 于 在 海里 筛 滤 出 微小 的 浮游 生物 来 吃 。 另 一 些 有 成 排 的 牙齿 ( 比 
Meh), HRA WR ARETE. MASH MK WRARATH. X 
里 ,并 没有 一 个 清楚 的 概念 来 表示 关于 牙齿 的 相似 性 (或 距离 度量 ) 。 例 如 ,须鲸 和 海象 的 牙齿 
之 间 并 不 比 涂 鱼 与 比目鱼 之 间 更 相似 。 

于 是 在 本 章 中 ,我们 的 注意 力 从 以 实 向 量 形式 表示 的 模式 ,转向 以 非 度量 (nonmetric) 的 
语义 属性 来 表示 的 模式 。 一 种 常用 的 方法 使 用 所 谓 的 “属性 d- 元 组 ”(property d-tuple) 44 R 
的 属性 赋值 。 例 如 ,考虑 用 如 下 四 种 属性 描述 一 种 水 果 的 情况 :颜色 、 纹 理 、 味 道 和 尺寸 。 这 
样 , 某 种 水 果 的 4- 元 组 表达 是 { 红 色 , 有 光泽 , 甜 , 小 }( 即 “颜色 三 红 ”纹理 二 有 光泽 ”， 味 道 一 
W “尺寸 = 小 ”的 简短 表达 )。 男 一 种 表示 此 类 模式 的 常用 方法 是 用 不 等 长 语义 属性 的 字符 
a ,例如 ,一 个 DNA 片断 的 碱 基 对 ,如 “AGCTTCAGATTCCA”。 这 种 列表 (或 串 ) 本 身 也 可 
能 是 某 种 子 分 类 器 的 输出 结果 ,就 像 我们 以 前 学 到 的 那些 一 样 。 举 个 例子 ,可 训练 一 个 神经 网 
络 ,使 之 能 识别 汉字 或 日 文中 的 基本 笔划 (大 约 有 十 几 种 )。 然 后 把 这 些 由 基本 笔划 的 语义 属 

304) 性 组 成 的 列表 作为 输入 送 到 另 一 个 分 类 器 ,最 终 才 识别 出 一 个 整 字 。 
如 何 最 好 地 运用 语义 数据 来 进行 分 类 ? 最 关键 的 是 ,如 何 有 效 地 从 这 些 非 度量 的 数据 中 
学 习 和 发 现 类 别 信 息 ? 如 果 串 本 身 存 在 结构 ,该 如 何 恰当 的 表达 该 结构 ? 通过 上 述 问题 的 思 
考 , 将 导致 偏离 原来 的 基于 连续 概率 分 布 和 距离 度量 的 思路 ,而 研究 以 规则 或 语法 结构 表达 的 
模式 识别 问题 。 


8.2 判定 树 


利用 一 系列 的 查询 问答 来 判断 和 分 类 某 模式 是 一 种 很 自然 和 直观 的 作法 。 后 一 个 问题 的 
提 法 依赖 于 前 一 个 问题 的 回答 。 这 种 “问卷 表 ” 方 式 的 作法 对 非 度量 数据 特别 有 效 , 因 为 回答 
问题 时 的 “是 / 否 ”“ 真 / 假 "…“ 属 性 值 ” 等 并 不 涉及 任何 距离 测度 概念 。 

上 述 问 题 集 直接 可 以 用 有 向 的 判定 树 (decision tree) 的 形式 表示 ,简称 为 树 (tree) , 树 的 首 
节点 ( 称 为 根 节 点 ) 显 示 在 最 上 端 , 下 面 顺序 (有 问 ) 地 与 其 他 节点 通过 链 ( 或 分 支 ) 相 连 。 继 续 
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上 述 构造 过 程 , 直 至 到 达 没 有 后 续 的 终端 节点 ( 称 为 " 叶 节 点 ”) CA 8-1), 8.3 FM 8.4 节 会 讲 
述 创建 一 棵 树 的 方法 。 在 这 里 ,我们 先 来 看 它 如 何 用 于 分 类 。 树 分 类 过 程 的 第 一 步 要 从 根 节 
点 开始 ,首先 对 模式 的 某 一 属性 的 取 值 提问 。 与 根 节点 相连 的 不 同 链 或 分 支 ,对 应 这 个 属性 的 
不 同 取 仁 。 根 据 不 同 的 回答 ,我 们 转 回 相应 的 后 续 子 节点 。 树 的 各 分 支 必须 是 互 斥 的 并 且 要 
窗 访 整个 概念 空间 ,也 就 是 说 ,一 次 只 可 能 沿 惟一 一 个 分 文 展开 。 第 二 步 , 即 在 已 经 到 达 的 节 
点 处 作 同 样 的 分 支 判断 , 即 把 它 作 为 一 棵 子 树 的 根 节 点 。 继 续 这 一 过 程 ,直到 到 达 叶 节点 ,这 
时 表明 已 经 没有 其 他 问题 可 问 了 。 每 一 个 时 节点 上 都 附 有 一 个 相应 的 类 别 标记 ,测试 样本 就 
饿 标记 为 它 所 到 达 的 叶 节 点 的 类 别 标记 。 
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图 8-1 ”判定 树 的 一 次 基本 的 自 上 而 下 的 判别 分 类 操作 。 每 个 节点 处 查询 的 问题 是 关于 模式 的 一 
个 属性 的 ,而 向 下 的 链 对 应 可 能 的 回答 。 连 续 访 问 节 点 ,直到 到 达 某 个 叶 节点 ,就 可 以 从 叶 节 点 处 
读 出 类 别 标记 。 注 意 到 问题 “尺寸 ?出 现在 多 个 节点 处 ,并 且 节 点 的 分 支 数目 存在 不 同 , 许 多 叶 节 
点 具有 同样 的 类 别 标记 (例如 “苹果 ”) 


图 8-1 示 出 的 简单 的 判定 树 也 显示 了 树 分 类 方法 相 比 其 他 分 类 器 (如 神经 网 络 ) 的 优点 之 
一 , 即 可 表示 性 。 也 就 是 说 , 树 中 所 体现 的 语义 信息 ,容易 直接 用 逻辑 表达 式 表示 出 。 这 种 “可 
表示 性 ”* 有 两 重 意 义 。 首 先 , 易 于 将 某 特 定 测试 模式 用 从 根 和 节点 井 始 , 沿 着 判定 树 的 对 应 路 径 ， 
直到 叶 节 点 的 所 有 判决 的 “逻辑 合 取 式 ”(conjunction) 表 达 。 这 样 ,如 果 属 性 表 是 !{ 味 道 、 颜 色 、 
形状 、 尺 寸 ), 则 模式 x== { 甜 、 黄 \、 细 长 中等}, 就 可 以 识别 为 香 厅 , 因 为 香 巷 的 (颜色 == 黄 ) 
AND (形状 = 细 长 )。 第 二 ,我 们 也 能 利用 合 取 式 和 析 取 式 构造 一 个 逻辑 表达 式 , 进 而 获得 这 
个 模式 的 明确 描述 (习题 8) 。 例 如 , 树 中 辐 样 表示 出 革 果 =( 绿 色 AND 中 等 大 小 )OR( 红 色 
AND 中 等 大 小 )92 。 

从 树 中 (特别 是 较 大 的 树 ) 获 得 的 规则 通常 很 复杂 ,因而 必须 简化 后 才 易 于 表达 。 上 述 例 
子 中 ,苹果 也 能 用 如 下 规则 表达 ,苹果 二 (中 等 大 小 AND NOT RE), 

树 分 类 器 的 另 一 个 优点 是 分 类 的 速度 很 快 , 因 为 只 需 一 系列 简单 的 查询 。 最 后 .我 们 注意 
到 树 提 供 了 一 种 很 自然 的 般 入 人 类 专家 的 先 验 知识 的 机 制 。 在 实际 中 ,不 管 怎样 , 当 问 题 比 较 
简单 以 及 训练 样本 很 少时 ,这 类 专家 知识 十 分 有 效 。 


O 〇 ”这 里 我 们 仍然 用 黑体 表示 模式 ,尽管 它们 也 许 不 再 是 实数 向 量 , 而 是 语义 结构 ,因而 就 不 符合 实 向 量 的 运算 法 则 。 
同样 原因 ,用 “属性 "表示 语义 数据 或 实 矢量 ,但 特征 仅 指 实 矢量 . 
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8.3 CART 


现在 ,我 们 来 研究 基于 训练 样本 构造 或 “生成 ”一 棵 判定 树 的 问题 。 假 定 已 知 一 个 有 类 别 
标记 的 训练 样本 集 力 ,并 且 已 经 确定 了 一 个 用 于 判定 模式 的 属性 集 , 但 并 不 知道 如 何 把 测试 问 
题 组 织 成 一 棵 树 。 很 明显 ,任何 判定 树 都 应 该 把 训练 样本 集 逐 步 划 分 成 越 来 越 小 的 子 集 。 理 
想 的 情况 是 每 个 子 集中 的 所 有 样本 均 有 同 种 类 别 标 记 。 如 果 是 这 样 , 则 称 该 子 集 是 “ 纯 ” 的 子 
集 , 树 的 分 支 操 作 将 因此 结束 。 而 通常 情况 下 , 子 集中 的 类 别 标 记 仍 有 混杂 。 这 时 ,我 们 必须 
作 选 择 ,要 人 么 停止 分 又 ,接收 这 不 完美 的 判决 ,要 人 么 另外 选取 一 个 属性 进一步 生长 该 树 。 这 很 
明显 是 一 种 递归 结构 的 树 的 生长 过 程 。 数 据 表示 在 每 个 节点 上 ,要 么 该 节点 已 经 是 叶 节 点 (并 
且 有 对 应 的 类 别 标 记 ) ,要 么 利用 另 一 种 属性 ,继续 分 裂 成 子 集 。 不 过 分 类 和 回归 树 (classifi- 
cation and regression tree,CART) 是 仅 有 的 一 种 通用 的 树 生 长 算法 。 

CART 提供 一 种 通用 的 框架 ,利用 它 , 可 以 实例 化 为 各 种 各 样 不 同 的 判定 树 。 按 照 
CART, 有 6 个 问题 需要 回答 。 

。 属性 的 值 应 当 是 完全 二 值 的 还 是 多 值 的 ?也 就 是 说 ,节点 处 的 分 支 数 应 该 是 几 ? 

© 如 何 确定 某 节 点 处 应 该 测试 哪个 属性 ? 

。 何 时 可 以 令 某 节点 成 为 时节 点 ? 

。 如 果树 生长 得 “过 大 ”, 怎 样 使 其 变 小 变 简 单 , 即 如 何 “ 剪 枝 ”? 

。 如 果 叶 节点 仍 不 “ 纯 ”, 那 么 怎样 给 它 赋 类 别 标记 ? 

.缺损 的 数据 如 何 处 理 ? 

下 面 我 们 来 依次 考虑 这 些 问题 。 
8.3.1 分 支 数目 

节点 处 的 一 次 判别 称 为 一 个 分 文 , 它 对 应 于 将 训练 样本 划分 成 子 集 。 根 节点 处 的 分 文 对 
应 于 全 部 训练 样本 。 其 后 每 一 次 判决 都 是 一 次 子 集 划 分 过 程 。 分 支 的 数目 与 前 面 的 问题 2 紧 
密 相关 。 因 为 问题 2 确定 了 在 该 节点 处 根据 哪个 属性 分 又。 一 般 来 说 ,节点 的 分 支 数目 是 由 
树 的 设计 者 确定 的 ,并 且 在 一 棵 树 上 也 可 能 有 不 同 的 值 ( 如 图 8-1) 。 从 一 个 节点 中 分 出 去 的 树 
支 链 的 数目 有 时 称 为 节点 的 分 支 系 数 或 分 支 率 (branching ratio), A B 表示 。 然 而 有 这 样 一 
个 事实 , 即 每 一 个 判别 (以 及 每 一 棵 树 ) 都 可 以 用 二 值 判 别 表示 出 (习题 2) 。 例 如 ,图 8-1 中 根 
节点 测试 的 水 果 颜 色 (B 二 3) 可 以 用 图 8-2 中 的 两 个 二 值 节 点 来 表示 :首先 可 以 问 是 否 是 绿 
色 ? 在 回答 “ 否 ” 的 分 支 上 继续 询问 是 否 是 黄色 ? IE TR (binary tree) 具 有 万 能 的 表达 
能 力 , 并 且 在 训练 上 很 简便 ,所 以 我 们 在 下 面 集 中 讨论 这 种 树 ( 图 8-2). 

8.3.2 查询 的 选取 与 节点 不 纯度 

在 树 的 设计 过 程 中 关注 的 焦点 大 多 集中 在 考虑 在 每 个 节点 处 应 该 选取 测试 或 查询 哪 一 
属性 S 。 对 非 数 值 数据 而 言 ,在 节点 处 作 查 询 进 而 划分 数据 的 过 程 并 没有 直接 的 几何 解释 。 
而 对 于 数值 数据 ,用 判定 树 方 法 得 到 的 分 类 边界 却 存在 较为 直观 的 图 示 几 何 解 释 。 例 如 , 当 在 
节点 处 问 及 “Is zi 委 zs?2” 时 ,会 导致 垂直 于 坐标 轴 的 一 个 超 平 面 的 判决 边界 以 及 相应 判决 





区 域 ( 如 图 8-3)。 构 造 树 的 过 程 一 个 基本 原则 是 “简单 ” 我 们 期 望 获得 的 判定 树 简 单 KE, 


O ”当然 问题 可 能 更 加 复杂 ,因为 并 无 理由 表明 不 能 在 一 个 节点 处 同时 查询 多 个 属性 。 例 如 ,可 以 是 许多 属性 的 逻辑 
组 合 ,比如 用 (尺寸 = 中 ) AND (NOT (颜色 = 黄 )) 作 为 查询 项 。 我 们 把 每 节点 只 涉及 单一 属性 的 树 称 为 单调 树 
(monothetic) ,而 称 涉及 超过 两 个 属性 的 为 复合 树 (polythetic)。 简 单 起 见 ,通常 是 研究 单调 树 。 不 管 怎 样 ,最 关键 
的 是 每 节点 处 判定 必须 是 严格 定义 的 ,不 允许 有 模糊 性 ,每 个 判定 只 能 导致 惟一 的 分 支 。 
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图 8-2 任何 一 个 具有 任意 分 支 率 的 树 都 可 以 用 二 叉 树 ( 即 分支 率 B= 二 2) 等 价 表 示 。 这 里 示 出 的 
二 叉 树 ,只 有 是 和 否 两 个 分 支 , 实 现 的 是 与 图 8-1 的 树 同 样 的 分 类 功能 


只 有 很 少 的 节点 。 这 是 Occam 剃刀 原则 的 一 个 版 本 , 即 能 够 解释 数据 的 最 简单 的 模型 就 是 最 
好 的 模型 (参见 第 9 章 )。 本 着 这 一 目标 ,应 试图 寻找 这 样 一 个 查询 T, 它 能 使 后 继 节点 数据 尽 
可 能 的 “ 纯 ”。 为 了 形式 化 的 表达 上 述 想 法 ,我 们 定义 一 个 “不 纯度 ”(impurity) 的 指标 。 很 显 
然 , 定 义 “ 不 纯度 ”要 比 定义 “纯度 ”指标 更 加 便利 。 业 已 出 现 几 种 不 同 的 数学 公式 用 以 测量 “不 
纯度 ”, 但 它们 都 具有 相同 的 特性 。 用 ;CN) 表 示 节 点 N 的 “不 纯度 ”, 当 节点 上 的 模式 数据 均 
来 自 同一 类 别 时 ,我 们 要 求 ;CN) 一 0; 而 若 类 别 标记 均匀 分 布 时 ,zCN) 应 当 很 大 。 











8-3 单调 的 判定 树 产生 的 分 界面 垂直 于 所 查询 的 特征 轴 , 在 两 类 问题 中 ,划分 的 类 别 区 域 用 及 ， 

和 及 :表示 ,图 中 左右 分 别 示 出 了 二 维和 三 维 的 情况 ,用 这 种 方式 ,即使 很 复杂 的 分 类 面 ,也 可 以 近似 

表示 出 

By ety AY E ER 9 “AS a BE” Centropy impurity, 亦 称 为 信息 量 不 纯度 (Cinformation 
impurity)): 


| 398 
i(N) = — 2_ Pwj) log, P(wj) (1) 
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这 里 PCwj) 是 节点 N 处 属于 w; 类 模式 样本 数 占 总 样本 数 的 频 度 ” 。 根 据 众所周知 的 炉 的 特 
性 ,如 果 所 有 模式 的 样本 都 来 自 同 一 类 别 , 则 不 纯度 为 零 ,否则 是 大 于 零 的 正 值 , 当 所 有 类 别 以 
等 概率 出 现时 , 燃 值 取 最 大 值 。 
另 一 种 不 纯度 的 定义 在 两 类 分 类 问题 中 特别 有 用 。 根 据 当 节点 样本 均 来 自 单一 类 别 时 不 
纯度 为 0 的 思想 ,可 用 如 下 多 项 式 形式 定义 不 纯度 : 
i(N) = P(w)P(w2) (2) 


这 也 能 解释 为 “方差 不 纯度 ”, 因 为 在 某 种 合理 的 假设 下 ,该 值 与 两 类 分 布 的 总 体 分 布 方差 有 关 
(习题 10) 。 
一 种 推广 了 的 可 用 于 多 类 分 类 问题 的 方差 不 纯度 , 称 为 "Gini 不 纯度 ”: 
i(N) = 》 P(w;) P(w;) = 1 ~ 1, Phe) (3) 
天 7 
这 也 正 是 当 节 点 N 的 类 别 标记 任意 选取 时 对 应 的 误差 率 。 当 类 别 标记 等 概率 时 “Gini 不 纯 
度 ” 指 标的 峰 度 特 性 比 “ 炉 不 纯度 ”要 好 。 
“ 误 分 类 不 纯度 ”可 以 定义 为 
i(N)=1— me P(w;)) (4) 


用 它 可 衡量 节点 NN 处 训练 样本 分 类 误差 的 最 小 概率 。 该 指标 在 前 面 讨 论 过 的 不 纯度 指标 中 
当 等 概率 标记 是 具有 最 好 的 峰值 特性 。 然 而 | 
搜索 最 大 值 时 会 出 现 问 题 。 图 8-4 示 出 了 两 类 情况 下 ,不 纯度 指标 作为 其 中 一 个 类 别 概 率 的 
函数 的 图 形 ，。 
图 8-1 两 类 分 类 问题 中 , 几 个 不 纯度 指标 都 在 等 类 别 概 OP) 
率 时 达到 峰值 点 。 其 中 ,方差 不 纯度 和 Gini 不 纯度 完全 一 
致 。 箭 ,方差 .Gini、 误 分 类 ,这 4 个 指标 分 别 用 式 (1) 一 (4) 
计算 ,但 并 不 直接 影响 最 终 的 学 习 和 分 类 性 能 。 为 便于 比 
较 , 图 中 4 个 指标 的 幅度 和 电 平 已 经 被 调整 过 
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现在 开始 思考 关键 的 问题 :给 定 一 部 分 树 , 目 前 已 生长 到 节点 N, 要 求 对 该 节点 作 属性 查 

询 工 , 问 应 该 如 何 选择 符 查 询 值 s? 一 个 很 明显 的 启发 式 的 思路 是 选择 那个 能 够 使 不 纯度 下 降 
最 快 的 那个 查询 。 不 纯度 的 下 降落 差 可 记 作 ， 

Ai(N) = i(N) — PLi(Ni) — (1 — Pi)i(NR) (5) 


其 中 N, AN: DIEZ EF PR iN NDAD, PLESRAT RRA, 
树 由 NN 生长 到 NN 的 概率 。 这 样 最 佳 的 查询 值 s 就 是 那个 能 最 大 化 AMDE. wR RHR 
不 纯度 指标 , 则 不 纯度 的 下 降 差 就 是 本 次 查询 所 能 提供 的 信息 增益 。 由 于 二 叉 树 的 每 次 查询 
仪 仅 给 出 是 / 否 的 回答 ,所 以 每 次 分 文 所 引起 的 燃 不 纯度 的 下 降 差 不 会 超过 1 位 (习题 5) 。 


”这 里 我 们 有 点 混用 符号 ,因为 通常 是 用 PP 表示 概率 ,而 用 了 表示 频 度 的。 更 严格 的 记 法 是 P(xE wj|NN), 即 节点 N 
处 的 属于 的 训练 样本 x Fo, 的 比例 (如 果 它 们 没有 在 NN 之 前 就 被 分 出 的 话 )。 但 简单 起 见 ,在 上 面 我 们 并 未 采 
用 这 种 记 法 。 
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判决 式 的 一 般 形式 决定 了 在 节点 处 寻找 最 优 决 策 的 方式 。 因 为 判定 准则 是 基于 不 纯度 函 
数 的 极 值 的 ,因此 对 该 函数 作 一 些 适 当 修 改 ,比如 加 上 一 常数 或 乘 上 一 个 总 体 尺度 因子 ,将 不 
影响 最 终 的 结果 。 设 计 者 大 多 选择 那些 容易 计算 的 函数 ,比如 基于 单个 特征 或 属性 的 ,从 而 给 
出 一 棵 单调 树 。 如 果 判 决 式 是 基于 语义 的 非 数 值 属 性 值 , 我 们 必须 充分 搜索 训练 样本 的 全 部 
可 能 的 子 集 ,以 找到 能 使 Ai 最 大 的 那 条 规则 。 而 若 当 特征 值 是 实数 的 ,并 且 树 对 应 于 复合 树 ， 
则 可 以 采用 梯度 下 降 算法 寻找 分 支 超 平面 (参考 8. 3. 8 节 )。 二 又 树 更 多 地 被 采用 的 一 个 重要 
原因 是 其 节点 处 的 判别 是 一 个 一 维 优化 过 程 。 如 果 分 支 系数 大 于 2, 就 必须 采用 二 维 或 更 高 
维 的 优化 技术 , 那 通 常 要 困难 得 多 。 

有 时 ,可 能 会 有 多 个 不 同 的 查询 s 的 分 支 都 导致 同样 的 不 纯度 落差 ,问题 是 如 何 作 出 选择 。 
比如 ,如 果 特 征 是 实数 的 ,变量 zx 在 区 间 zx, 过 zx, 过 xz, 中 任何 一 点 的 分 支 都 导致 相同 的 最 大 落差 。 
常规 的 解决 方法 是 要 么 取 其 中 位 点 zx, 二 (zi 十 x)/2, 要 么 取 加 权 平 均 zx, 二 (1 一 P)z 十 x,P ,其 
中 忆 是 节点 向 左 分 支 的 概率 。 计 算 复 杂 度 可 以 作为 进行 选择 的 决定 性 因素 ,因为 除 此 之 外 ， 
并 无 深层 的 理论 说 明 应 该 选择 这 个 而 不 选择 那个 。 注 意 到 式 (5) 的 优化 是 局 部 进行 的 ,也 即 一 
次 只 处 理 一 个 节点 。 对 绝 大 多 数 这 类 的 贪心 算法 而 言 ,无 法 确保 顺序 的 局 部 优化 过 程 会 得 到 
全 局 最 优 。 在 实践 中 ,即使 经 过 训练 也 未 必 一 定 能 得 到 最 小 的 树 。 然 而 ,确定 合理 的 不 纯度 函 
数 和 学 习 算 法 之 后 ,我 们 总 能 继续 子 树 的 分 支 直 到 在 叶 节 点 处 得 到 最 小 可 能 的 不 纯度 。 不 过 ， 
仍然 无 法 保证 该 不 纯度 一 定 为 零 ,因为 如 果 有 两 个 模式 ,虽然 来 自 不 同类 别 , 但 有 相同 的 属性 
表示 ,这样 的 不 纯度 也 会 比 零 大 。 

在 树 的 生长 过 程 中 ,有 了 时 会 出 现 “ 误 分 类 不 纯度 ”不 再 下 降 , 而 Gini 不 纯度 却 仍 在 下 降 的 
现象 。 因 此 ,虽然 最 终 的 目标 都 是 分 类 ,但 我 们 更 倾向 用 Gini 指标 ,因为 它 “ 预 感 ” 到 后 续 的 分 
文 也 许 会 更 有 用 。 考 虑 下 面 的 情况 ,如 果 节 点 NN 处 有 90 个 w 类 模式 ,和 10 个 w 类 模式 , 易 
若 此 时 的 “ 误 分 类 不 纯度 ”是 0.1。 大 假定 后 续 的 分 支 将 不 再 可 能 出 现 占 优 的 情形 ,于 是 ， 
不 管 怎样 分 支 ,“ 误 分 类 不 纯度 ”指标 将 保持 0. 1 不 变 。 所 以 我 们 可 以 随意 假定 有 70 个 w 和 0 
个 ws 被 分 到 右边 ,而 20 hw, 和 10 个 ws 被 分 到 左边 。 尽 管 这 样 的 分 支 结果 令 人 满意 ,但 从 
“ 误 分 类 ”指标 上 (一 0. 1) 却 丝毫 看 不 出 来 。 相 反 ,Gini 指标 缺 明显 显示 出 不 纯度 的 下 降 。 简 而 
言 之 ,Gini 不 纯度 指标 指出 这 是 一 次 好 的 分 支 ,而 “ 误 分 类 指标 ” 却 无 能 为 力 。 

在 多 类 问题 的 二 叉 树 生长 过 程 中 ,采取 “二 分 法 ”准则 是 有 用 的 。 问 题 的 总 体 目标 是 对 c 
个 类 别 进行 最 好 的 子 集 划 分 。 也 就 是 说 ,候选 的 “ 超 类 ”Cl 包 括 全 部 来 自 某 类 别 的 一 个 样本 子 
集 ,而 超 类 Cs: 是 由 全 部 的 其 他 类 别 的 样本 组 成 。 记 类 别 的 取 值 范围 是 C 一 {wo ,ws,…,w,}。 在 
每 个 节点 处 ,判别 使 得 类 别 划 分 为 Ci 二 人 0 wa，…w } 类 ,和 Cz 二 C 一 C1 类 。 对 每 一 个 候选 的 
分 文 ,我 们 计算 其 不 纯度 的 变化 量 AiCs,C1) ,就 像 标准 的 2- 类 问题 所 作 的 那样 。 即 寻找 使 Ai 
变化 最 大 的 那个 分 裂 ;“ (ci ) 。 最 后 ,我 们 得 到 使 Ai(s* (C1),Ci) 最 大 的 超 类 Ci 。 上 述 不 纯度 
的 计算 策略 着 眼 于 大 处 一 能 够 从 宏观 上 把 握 问题 的 结构 (习题 4) 。 

虽然 表面 上 令 人 感到 奇怪 ,但 是 实践 中 回 发 现 选 择 不 同形 式 的 不 纯度 函数 对 最 终 的 分 类 
效果 及 其 性 能 影响 很 小 。 炉 不 纯度 因 基 计算 简单 ,并 且 来 源 于 信息 论 而 被 普遍 采用 ,当然 Gini 
不 纯度 也 同样 受到 重视 。 我 们 将 看 到 ,在 实践 中 ,反倒 是 停止 判决 和 剪 枝 算法 , 即 何 时 停止 节 
点 分 支 和 怎样 合并 时节 点 ,要 比 不 纯度 函数 的 选择 对 最 终 分 类 正确 率 影 响 更 大 。 

多 重 分 支 

尽管 我 们 集中 研究 二 叉 树 ,但 也 简单 地 介绍 一 下 允许 树 的 节点 分 支 率 在 训练 过 程 变动 的 

情况 ,在 后 面 讲 述 ID3 算法 时 (8. 4.1 节 ) 还 要 回 到 这 个 问题 。 这 种 情况 下 ,我 们 试 着 将 式 (5) 
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推广 到 如 下 多 重 分 支 的 情况 : 


B 
Ai(s) =i(N) — 》 Pki (Ny) (6) 
k=l 


这 里 P, 是 分 支 到 节点 N, 的 训练 样本 占 的 的 比例 , 且 满 足见 P, 一 1。 然 而 式 (6) 存 在 缺点 , 即 尽 


BRK B 值 的 判决 比 小 B 值 的 优先 级 高 ,但 是 它 未 必 对 应 更 有 意义 的 划分 结构 。 例 如 ,即使 划 

分 的 数据 接近 随即 分 布 ,对 应 大 B 值 的 不 纯度 指标 也 比 小 B 值 的 下 降 得 多 。 为 避免 这 一 缺 

尽 , 式 (6) 中 的 不 纯度 变化 量 应 该 根据 “增益 比 不 纯度 ”进行 规格 化 为 (习题 17)，、 
Al(s) 

B 


一 > Pr log, P; 
k=] 


同 以 前 一 样 ,最 优 的 分 支 对 应 于 Ais(s) 最 大 的 那个 。 
8.3.3 分 支 停止 准则 

本 小 节 考 虑 二 又 树 的 训练 分 支 过 程 何 时 应 该 停止 的 问题 。 如 果 我 们 持续 生长 树 , 直到 所 
有 的 叶 节 点 都 到 达 最 小 的 不 纯度 为 止 , 那 么 数据 一 般 将 被 “过 拟 合 ”( 参 见 第 9 章 )。 最 极端 的 
情况 下 (当然 很 少见 ), 即 所 有 的 叶 节 点 只 对 应 单一 的 训练 样本 ,那么 分 类 树 就 退化 成 为 一 个 方 
便 的 查找 表 , 这 样 ,对 有 和 较 大 贝 叶 斯 误差 的 噪声 信号 的 推广 性 能 就 不 可 能 很 好 。 相 反 , 如 果 分 
支 停止 的 太 早 ,那么 对 训练 样本 的 误差 就 不 够 小 ,导致 分 类 性 能 很 差 。 

究竟 何 时 应 该 停止 分 支 ? 常规 的 做 法 之 一 ,是 验证 和 交叉 验证 技术 (validation and cross- 
validation) ,将 在 第 9 章 讨 论 。 验 证 技术 是 指 ,首先 用 部 分 的 训练 样本 (如 90%) 来 训练 树 , 然 
后 用 剩余 的 (10%) 部 分 作为 验证 。 持 续 节 点 分 支 , 直 到 对 于 验证 集 的 分 类 误差 最 小 化 为 止 ( 交 
又 验证 则 依赖 于 大 于 独立 选择 的 子 集 )。 另 外 一 种 作法 是 预先 设 定 一 个 不 纯度 下 降 差 的 (小 ) 
门限 值 。 当 候选 分 支 使 得 节点 的 不 纯度 的 下 降 差 小 于 这 个 门限 , 即 max,Ai(s) 达 8B 时, 则 停止 
分 文 。 这 种 作法 具有 两 个 优点 。 其 一 ,与 交叉 验证 不 同 的 是 ,全 部 样本 都 可 用 来 训练 。 其 二 ， 
树 的 各 层 上 都 可 能 存在 叶 节 点 ,这 对 输入 数据 中 存在 不 同 复杂 度 的 情况 非常 关键 (这 样 一 棵 非 
平衡 树 ,对 不 同 的 测试 样本 存在 不 同 数 目的 判定 过 程 )。 但 该 方法 也 有 一 个 根本 缺点 : 即 门限 
值 的 预先 设 定 相当 困难 ,因为 最 终 性 能 与 门限 大 小 并 无 直接 的 函数 关系 (上 机 练习 2)。 一 种 
简单 的 设 定 方法 是 监视 每 个 节点 代表 的 样本 数目 是 否 少 于 某 值 ,比如 10 个 ,或 者 少 于 菜 个 固 
定 的 比例 ,如 5% 。 这 很 像 天 近邻 分 类 器 的 做 法 , 当 样 本 分 布 密集 时 ,分 割 的 子 集 就 小 ; 当 样 本 
黎 欧 时 ,分割 的 子 集 就 大 。 

还 有 一 种 做 法 用 高 的 复杂 度 换取 高 的 准确 率 , 它 通过 最 小 化 如 下 这 个 新 定义 的 全 局 指标 
来 达到 目的 : 


Aiz(s) = 
(7) 


aq size + 2, i(N) (8) 

叶 节 点 
这 里 的 size 表示 节点 或 分 支 的 数目 ,a 是 一 个 正常 数 ( 有 点 像 神经 网 络 中 用 以 候 罚 权重 或 节点 
的 正则 化 方法 )。 如 果 UCN RAMAAR Bis BAR OSA 9 章 将 学 到 的 “最 小 描述 长 度 ” 
(MDL) 的 思想 很 一 致 。 所 有 叶 节 点 的 不 纯度 的 求 和 表征 了 使 用 该 分 类 树 对 训练 样本 进行 分 
类 时 的 不 确定 性 (以 位 计 )。 而 其 中 的 size 是 可 以 用 于 衡量 这 个 树 分 类 器 的 复杂 度 ( 也 以 位 
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计 )。 不 过 a 的 设 定 也 非 易 事 , 因 为 它 也 与 最 终 分 类 性 能 无 简单 的 相关 关系 。 

男 外 一 种 停止 分 类 的 准则 基于 不 纯度 下 降 的 统计 显著 性 分 析 。 在 构造 树 的 过 程 中 ,估计 
目前 全 部 已 有 节点 的 不 纯度 降 差 A 的 概率 分 布 。 我 们 假定 它 就 是 Ai 的 总 体 分 布 。 对 某 一 候 
选 的 节点 分 支 而 言 ,我 们 检验 它 与 上 述 分布 是 否 存 在 统计 差异 ,比如 用 x 检验 (参见 附录 
A. 6.1)。 如 果 某 个 候选 分 支 的 不 纯度 下 降 统 计 不 显著 , 则 停止 分 支 ( 习 题 15)。 

该 技术 的 一 种 变形 , 即 “ 假 设 检验 ”技术 也 能 被 采用 。 它 甚至 能 处 理 当 对 Ai 的 先 验 分 布 的 
知识 很 少 的 情况 。 要 确定 候选 分 支 是 否 有 统计 上 的 “意义 ”一 王 即 判断 该 分 文 是 否 明 显 有 别 于 
一 次 随机 分 支 。 假 定 节 点 N 处 存在 n 个 模式 样本 (nj 个 o Bom Po 类 ), 我 们 期 望 检验 候 
选 分 支 5 是 否 与 随机 分 文 有 明显 的 区 别 。 假 定 某 个 候选 分 文 将 Pn 个 模式 送 到 左 分 支 , 而 让 
(1 一 忆 )2 个 模式 送 去 右 分 支 。 此 分 支 假 如 是 随机 划分 的 , 则 应 该 有 Pn, 个 w 和 Pn 个 去 
了 左边 ,而 其 他 的 都 去 了 右边 。 我 们 用 x 统计 量 来 定量 估计 这 次 分 支 :与 (加 权 的 ) 随 机 分 支 
的 偏离 度 。 在 两 类 情况 下 ,该 偏离 度 是 

2 (nit — Nie)? 

= 2 一 (9) 
其 中 nz 是 在 决策 ; Fo, 类 的 样本 送 往 左 分 支 的 数目 ,而 ni 二 Pn; 是 对 应 的 随机 分 支 情况 下 的 
值 。 当 两 者 相同 时 ,x’ 统计 量 取 零点 。 而 反 过 来 ,如 果 x? 统计 量 越 大 ,说 明 差 异 也 越 大 。 当 
x 大 于 某 临 界 信和 时 (多 用 查 表 的 方法 得 到 (参见 附录 A. 6. 1)), 就 可 拒绝 零 假设 Cnull 
hypothesis) ,因为 ;的 显著 性 差异 已 经 超过 某 概率 值 或 置信 水 平 ,例如 0.01 或 0.05。 置 信 水 
平 的 临界 值 与 问题 的 自由 度 有 关 。 在 上 面 的 问题 中 ,自由 度 很 小 ,恰恰 是 1, 因 为 对 某 给 定 概 
率 ,如果 nii 值 已 知 ,那么 其 他 所 有 的 值 Cng ,nz ,nzr) 也 都 确定 了 。 当 某 个 节点 “最 显著 ”的 
分 文生 成 的 入 统计 量 比 给 定 的 置信 水 平 还 要 低 , 则 应 停 卡 该 节点 的 分 文 。 
8.3.4 Bye 

Ag IM, oP 30 AK RD YE To I RS eR he”. FETA N 
处 进行 的 最 优 分 支 决策 根本 不 考虑 对 其 下 面 一 层 的 节点 的 最 优 决策 的 影响 。 一 旦 停止 分 支 ， 
使 得 节点 N 成 为 叶 节点 ,就 断绝 了 其 后 继 节 点 进行 “好 ”的 分 支 操 作 的 任何 可 能 性 。 这样 一 
来 ,停止 条 件 或 许 对 获得 全 局 的 最 优 识 别 率 来 说 ,是 “邂逅 ”的 “ 太 早 > 了 。 不 严格 地 说 ,已 停止 
的 分 支 会 误导 学 习 算法 ,导致 产生 这 样 一 棵 树 , 它 的 不 纯度 降 差 最 大 的 地 方 过 分 靠近 根 节点 。 

另 一 种 主要 的 停止 分 支 的 方法 是 剪 枝 (pruning)。 在 剪 枝 过 程 中 , 树 首 先 要 充分 生长 , 直 
到 叶 节 点 都 有 最 小 的 不 纯度 值 为 止 , 因 而 没有 任何 推定 的 “视界 局 限 ”。 然 后 ,对 所 有 相 邻 的 成 
对 叶 节 点 (它们 连 到 同一 个 公共 父 节 点 上 ) ,考虑 是 否 应 该 消去 它们 。 如 果 消 去 它们 能 引起 令 
人 满意 的 (很 小 的 ) 不 纯度 增长 ,那么 执行 消去 ,并 令 它 们 的 公共 父 节 点 成 为 新 的 叶 节 点 (该 父 
节点 自身 当然 也 可 能 在 以 后 的 处 理 中 被 成 对 消去 ) 。 显 见 , 这 种 “合并 ?或 “联合 "两 个 时 节点 的 
做 法 与 节点 分 支 的 过 程 恰恰 相反 。 经 过 上 述 剪 枝 后 ,时节 点 常常 会 分 布 在 很 宽 的 层次 上 , 树 也 
变 得 非 平衡 了 。 从 叶 节 点 开始 前 枝 的 作法 虽然 很 普遍 ,但 却 并 非 是 必需 的 。 基 于 代价 复杂 度 
的 剪 枝 技术 可 以 直接 用 叶 节 点 一 次 替换 一 棵 复杂 的 子 树 。8. 4. 2 节 的 C4. 5 算法 甚至 能 消去 
任意 一 个 测试 节点 ,因而 可 以 用 一 个 分 文 替换 一 棵 子 树 。 

前 枝 技术 的 优点 是 克服 了 “视界 局 限 ? 效 应 。 而 且 , 因 为 无 需 保留 部 分 样本 用 于 交叉 验证 。 
所 以 可 以 充分 利用 全 部 训练 集 的 信息 。 很 自然 ,这 会 导致 计算 量 代 价 比 分 文 停止 方法 大 大 增 
加 。 特 别 对 于 大 样本 集 ,甚至 大 到 几乎 无 法 实现 。 不 过 对 于 小 样本 集 的 情况 ,由 于 计算 代价 
低 , 剪 枝 方法 优 于 分 支 停止 方法 。 有 时 ,我 们 前 面 所 谓 的 “停止 分 支 ? 技 术 和 “前 枝 ? 技 术 , 也 分 
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有 一 种 在 概念 上 有 所 不 同 的 剪 枝 方法 采用 了 规则 。 每 一 个 叶 节 点 都 附 有 一 条 规则 ,是 从 
根 节 点 到 这 个 时 节点 的 路 径 上 的 所 有 决策 的 逻辑 合 取 式 。 这 样 ,一 棵 树 可 用 规则 集 的 一 个 很 


大 的 列表 来 表示 ,其 中 每 个 叶子 对 应 一 条 规则 。 有 时 ,其 中 一 些 规则 可 被 简化 ,如 果 在 决策 序 


列 中 存在 元 余 的 判决 的 话 。 消 去 不 相关 的 前 提 规 则 ,也 能 简化 逻辑 表达 ,而 不 影响 分 类 函数 和 
推广 能 力 。 剪 枝 的 终极 目标 ,是 提高 系统 的 推广 能 力 。 我 们 消去 那些 规则 ,目的 是 提高 验证 集 
的 识别 率 ( 上 机 练习 5) 。 这 种 技术 非常 有 效 , 甚 至 能 消去 非常 靠近 根 节 点 的 叶 节 点 。 

“规则 剪 枝 ”技术 的 好 处 之 一 在 于 它 允 许 在 特定 节点 N 处 能 够 考虑 上 下 文 信息 的 区 别 。 
例如 ,节点 六 处 的 判决 规则 ,对 某 些 输入 (如 模式 x, ) 是 必要 的 , 却 对 模式 xz 的 输入 无 关 紧 要 ， 
因此 有 可 能 消去 。 倘 知 采 用 传统 的 节点 剪 枝 技 术 ,节点 N 只 能 要 么 被 消去 要 么 被 保留 。 而 在 
“规则 剪 校 ”* 中 , 则 可 根据 具体 的 输入 模式 是 x, BAT xe ,来 决定 何 时 该 保留 何 时 该 消去 。 

最 后 ,还 有 一 个 好 处 ,简化 了 的 规则 可 用 于 更 好 的 类 别 表 达 。 尽 管 规则 剪 枝 并 非 原 始 的 
CART 方法 的 组 成 部 分 ,但 它 很 容易 嵌入 CART 之 中 。 我 们 将 在 8. 4. 2 节 中 讨论 一 个 规则 前 
BL BF 
8.3.5 叶 节 点 的 标记 

给 每 个 叶 节点 赋 类 别 标 记 是 最 容易 的 一 步 。 如 果 节 点 持续 的 尽 可 能 被 分 支 ,那么 每 个 叶 
节点 都 只 包括 单一 的 样本 ,那么 该 类 别 的 标记 就 是 叶 节 点 的 标记 。 多 数 情况 下 ,无 论 是 否 曾 用 
过 分 文 停止 或 剪 枝 技 术 , 叶 节点 一 般 有 正 的 不 纯度 。 这 样 就 应 该 用 其 中 占 优 ( 势 ) 的 样本 类 别 
来 标记 。 没 有 必要 要 求 非常 小 的 不 纯度 值 , 因 为 它 往往 可 能 表明 这 棵 树 存 在 “过 拟 合 ”的 现象 。 
例 1 说 明 上 述 步 又 。 


例 1 一 棵 简单 的 判定 树 
考虑 用 如 下 二 维 空间 的 n= 16 VIR FA (R11) 9 = MW CART 树 (B=2)， 
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训练 样本 和 对 应 的 (未 剪 枝 ) 树 示 于 下 页 图 的 上 部 。 非 叶 节 点 的 不 纯度 已 标 出 。 叶 节点 不 
纯度 均 为 0。 如 果 图 中 标 有 “x ”的 样本 往 下 稍微 偏 一 点 儿 , 到 “+” 处 , 则 产生 的 树 和 判决 区 域 会 
有 很 大 不 同 , 示 于 下 部 。 

根 节点 的 不 纯度 等 于 


2 
i(Nroot) = — X Plwi)log, P(w;) = —[0.5log, 0.5 + 0.5log, 0.5] = 1.0 
i=1 


为 简单 计 , 考 虑 平行 于 特征 轴 的 分 支 一 一 即 “Is 2,< 2,7" MIBK. Wa n—1 个 位 置 处 
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对 cy 和 x 进行 穷 举 搜索 ,并 利用 式 (5) ,我 们 发 现 对 应 最 大 的 不 纯度 下 降 的 位 置 是 zi, = 0.6, 
这 也 就 是 根 节点 的 判 据 。 继 续 对 其 子 树 进行 上 述 过 程 ,直到 每 个 叶 节 点 都 是 有 惟一 的 类 别 标 
WCRI A AE RE =0) ,如 图 所 示 。 如 果 要 进行 剪 校 ,左下 方 的 叶子 对 将 最 早 被 消去 ,因为 它们 对 应 
最 小 的 不 纯度 增长 。 在 本 例 中 ,采用 合适 门限 值 的 停止 分 支 技术 也 将 给 出 同样 的 结果 树 , 但 通 
常情 况 下 ,特别 是 对 大 的 树 或 多 次 前 枝 , 二 者 的 最 终结 果树 是 不 同 的 。 例 子 中 给 定 的 训练 样本 
集 , 表 明 树 的 生长 对 训练 样本 点 的 精细 位 置 变动 很 敏感 。 例 如 图 中 标 有 * 的 w 类 样本 的 稍微 
移动 ( 标 有 +)。 树 的 这 种 不 稳定 性 ,主要 由 树 的 早期 判定 的 离散 性 和 “ 贪 禁 ”性 所 致 。 
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By 1 非 正 式 地 提出 了 对 训练 点 的 不 稳定 性 或 稳定 性 的 概念 。 当 然 , 用 稍微 有 所 不 同 的 训 
练 集 去 训练 任何 普通 的 分 类 器 ,其 最 终 效 果 都 会 有 所 不 同 。 但 是 对 于 CART, 即 便 很 小 的 样 
本 点 变动 也 会 导致 截然 不 同 的 最 终 判 决 结果 。 这 是 由 这 种 树 分 类 器 创建 过 程 中 国有 的 离散 性 
和 “ 贪 梦 " 性 引起 的 。 不 稳定 性 也 表明 对 该 树 进行 渐 增 式 或 离线 式 的 训练 会 得 到 很 不 一 样 的 分 
类 器 ,即便 在 训练 样本 集 一 样 的 情况 下 也 不 例外 。 

8.3.6 计算 复杂 度 

假如 给 定 nTa 维 训练 样本 ,希望 构造 一 棵 二 叉 树 ,并 使 用 炉 不 纯度 ,采用 平行 于 特征 轴 
的 方向 划分 ,来 解决 2- 类 分 类 问题 , 问 这 种 计算 的 时 间 和 空间 复杂 度 如 何 ? 
在 根 节 点 (第 0 层 ) ,首先 要 将 全 部 训练 数据 排序 。 于 是 对 & 中 的 任何 一 维特 征 , 需 要 
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Ocnlogn RHE. WABA O(n)4+(n—-1)0(d) ,因为 要 检查 n 一 1 个 可 能 的 分 支点 。 
于 是 根 节点 总 的 计算 量 是 O(dnlogn)。 分 析 平 均 的 情况 ,大 致 各 有 一 半 的 训练 样本 点 平均 向 


两 边 分 支 。 上 述 分 析 表 明 每 一 个 第 一 层 的 节点 分 支 的 计算 复杂 “BE O(d 5 log(n/2) )。 又 


因为 第 一 层 共 有 两 个 节点 ,所 以 总 计算 量 为 O(dnlog (n/2))。 同 样 ,第 二 层 有 
Ol(dn log(n/4))。 依 此 类 推 。 由 于 树 的 总 层 数 为 O(logn), 对 全 部 层 求 和 得 到 总 的 平均 时 间 
复杂 度 为 OC(dn(logn)?)。 对 识别 而 言 ,总 的 时 间 复 杂 度 与 树 的 深度 相同 一 即 总 层 数 O(logn)。 
在 某 些 简化 条 件 下 (比如 ,假设 每 个 叶 节 点 上 只 有 一 个 样本 点 ) ,空间 复杂 度 直 接 就 是 节点 的 数 
目 ,1 十 2 十 4 十 … 十 mn/2>2, 即 O(2)( 和 参见 习题 9) 。 
值得 强调 的 是 ,上 面 的 假设 条 件 ( 如 节点 的 平均 划分 ) 很 少 严 格 成 立 , 而 且 , 训 练 中 局 发 式 
技术 可 用 于 分 支 搜索 的 加 速 。 但 是 ,对 某 固定 的 维 数 d 来 说 ,训练 时 的 OC dn’ logn) 和 识别 时 
的 OClogn) 是 很 好 的 经 验 数值 。 它 指出 训练 要 远 比 识别 来 得 复杂 ,二 者 的 差异 在 问题 规模 变 
大 时 更 加 严重 。 
对 实 值 数据 而 言 , 有 几 种 技术 可 用 于 降低 树 训 练 时 的 复杂 度 。 其 中 最 简单 的 一 种 是 从 训 
练 集 定义 域 的 中 间 位 置 选 定 分 支 xi ,然后 对 左右 各 一 半 的 值 递 归 进 行 分 支 。 由 于 最 优 分 支 总 
是 出 现在 相 邻 点 分 属 不 同类 的 那个 临界 值 处 ,所 以 可 以 只 通过 测试 其 取 值 的 范围 端点 来 进行 。 
这 些 及 其 他 相关 技术 可 以 适当 降低 训练 复杂 度 。 对 于 包含 语义 ( 标 称 ) 信 息 的 模式 数据 ,候选 
分 支 可 能 宪 盖 属性 的 每 一 个 子 集 , 也 可 能 只 有 单个 数据 。 此 时 ,设计 者 对 特征 的 深刻 洞察 有 望 
降低 计算 负担 (参见 习题 3) 。 
8.3.7 特征 选择 
与 大 多 数 模 式 识 别 技术 一 样 恰当? 的 特征 会 充分 发 挥 CART 及 其 他 树 分 类 方法 的 性 能 
(图 8-5) ,对 实 值 特征 向 量 来 说 ,可 在 建造 树 之 前 应 用 标准 的 数据 预 处 理 技术 ,. 主 分 量 分 析 是 
图 8-5 ”如 果 节 点 判别 V 
所 使 用 的 类 型 与 训练 
数据 不 匹配 ,将 导致 十 
分 复杂 的 判定 面 。 比 
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一 种 有 效 的 预 处 理 手 段 ,因为 它 能 找到 数据 的 “重要 性 ” 轴 ( 即 主轴 ) ,从 而 找到 简单 的 判决 轴 方 
加。 然而 ,如 果 不 同 区 域 的 主轴 有 不 同 的 方向 ,那么 ,单一 的 判决 轴 方 向 是 不 够 的 。 这 时 ,我们 
可 以 利用 其 他 的 技术 一 一 例如 在 8. 3. 8 节 中 ,允许 分 支 可 沿 任意 的 分 支 方向 ,往往 也 能 给 出 更 
少 的 和 更 紧凑 的 树 。 
8.3.8 多 元 判定 树 
如 果实 值 数据 的 “自然 ”的 分 支 轴 并 不 平行 于 特征 轴 ,或 者 总 体 样本 数据 的 分 布 过 于 复杂 
或 不 可 接受 ,那么 上 述 方法 的 效率 和 推广 性 都 将 很 差 ( 如 图 8-6) 。 即 使 剪 枝 也 无 法 给 出 好 的 分 
类 器。 最 简单 的 解决 方案 是 允许 分 支 可 以 不 平行 于 特征 轴 , 也 即 采用 一 般 的 线性 分 类 器 。 该 
分 类 毕 可 以 用 基于 分 类 或 误差 平方 和 准则 的 梯度 下 降 算法 来 训练 (参见 第 5 章 )。 当 训练 样本 
较 大 时 ,靠近 根 的 节点 训练 过 程 会 很 慢 ,但 远离 根 的 节点 训练 将 很 快 ,因为 它 的 训练 只 涉及 很 
小 的 样本 子 集 。 由 于 每 个 节点 处 的 线性 函数 可 被 很 快 地 计算 出 ,所 以 识别 的 过 程 仍 保持 相当 
R, 
图 8-6 ”一 种 采用 一 般 x2 
线性 判别 面 的 多 元 分 | 
类 树 可 以 产生 任意 直 
线 分 界面 。 当 然 在 很 
多 感 兴趣 的 问题 中 , 模 
式 间 很 少 是 线性 可 分 
的 ,这 样 LMS 算法 会 
更 有 用 ,尽管 它 得 到 的 
分 类 误差 未 必 最 小 (第 
5 章 )。 这 里 的 树 可 以 
用 8.4.2 节 提 出 的 方法 
来 化 简 
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8.3.9 先 验 概率 和 代价 函数 

到 目前 为 止 ,我 们 都 假定 任何 一 类 w 在 训练 样本 集 和 测试 样本 集中 出 现 的 概率 相同 。 如 
果 情 况 并 非 如 此 , 当 实际 分 类 任务 中 出 现 的 频率 不 同时 ,就 需要 一 种 控制 树 生 长 的 方法 ,使 得 
实际 的 误差 率 更 低 。 最 直接 的 做 法 是 对 每 个 样本 依据 先 验 频率 加 权 ( 习 题 16) 。 另 外 ,我 们 也 
和 需要 一 个 广义 的 代价 函数 ,而 不 局 限于 误 分 类 率 或 0-1 代价 。 在 第 2 章 中 ,上 述 广义 的 代价 函 
数 的 信息 以 代价 矩阵 As 的 形式 表示 ,即将 w; 的 样本 误 分 类 为 w 所 引起 的 代价 。 代 价 函 数 的 
信息 能 容易 的 租 入 Gini 不 纯度 的 公式 中 ,成 为 加 权 Gini 不 纯度 

以 上 讨论 可 用 于 训练 过 程 。 代 价 函 数 也 可 以 直接 嵌 和 人 到 其 他 的 不 纯度 函数 中 (如 习 
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题 11), 
i(N) = 2 dij P(wi) P(w)) (10) 
ij 


8.3.10 属性 丢失 问题 

模式 分 类 问题 在 训练 中 或 识别 中 常常 会 遇 到 属性 丢失 的 问题 。 首 先 考虑 训练 树 分 类 器 时 
遇 到 部 分 样本 特征 丢失 情况 。 一 种 天 真 的 做 法 是 把 那些 缺陷 的 样本 统统 不 予 考虑 :这 导致 很 
大 的 浪费 ,并 且 只 有 当 完 整 样本 足够 多 时 才 适 用 。 一 种 更 好 的 方法 是 按 前 面 所 讲 的 (8. 3. 2 
方 ) 继 续 进 行 训练 ,只 是 在 计算 节点 N 的 不 纯度 时 ,只 利用 存在 的 属性 信息 。 假 定 在 N 处 有 
个 训练 样本 ,除了 一 个 样本 的 属性 zs 丢失 以 外 ,其 他 每 个 都 有 3 个 属性 。 为 找到 NN 处 的 最 好 
分 支 , 用 属性 zi 计算 全 部 个 点 ,再 用 属性 zx; 计算 i 个 点 ,最 后 用 zs 只 算 ”一 1 个 未 缺损 的 样 
本 。 像 以 前 一 样 计算 ,每 次 分 支 都 有 一 个 对 应 的 不 纯度 下 降 , 虽 然 这 里 涉及 不 同 的 样本 数目 。 
同样 如 以 前 一 样 ,最 优 的 分 支 对 应 最 大 的 不 纯度 下 降 。 这 种 过 程 还 可 以 直接 推广 到 多 重 分 支 、 
多 个 缺损 模式 、 甚 至 丢失 多 个 属性 的 情况 (习题 14) 。 

现在 ,来 考虑 如 何 构造 一 棵 能 够 分 类 缺损 模式 的 树 的 问题 。 上 面 提 到 的 树 不 能 直接 用 于 
缺少 属性 的 模式 分 类 (8. 4. 2 节 是 个 例外 ) 。 这 样 ,如 果 我 们 怀疑 测试 样本 中 有 缺损 ,那么 必须 
修改 8. 3. 2 节 中 的 训练 过 程 。 分 类 过 程 基 本 上 还 是 在 每 个 节点 处 尽量 采用 传统 的 判决 ( 称 为 
“ 主 ” 判 决 ) (也 就 是 说 ,只 应 用 缺损 模式 中 的 保有 的 特征 )。 而 对 丢失 了 的 特征 改 用 别 的 专门 的 
判决 查询 。 

在 训练 中 ,除了 为 “ 主 分 支 "(primary split) 以 外 ,每 个 非 终 端的 节点 N, 都 有 一 个 有 序 的 “ 替 
代 分 支 " 集 (surrogate split) ,其 中 包括 属性 标记 和 规则 。 第 一 个 这 样 的 “替代 分 支 ”与 “ 主 分 支 ” 一 
起 ,最 优化 一 个 称 为 “预期 合作 ”(predictive association) 的 指标 。 对 分 支 Fs, 的 “预期 合作 ” 指 
标 , 可 以 简单 地 通过 5 与 呈 的 判决 把 样本 以 同样 方式 分 到 左边 的 数据 加 上 以 同样 的 方式 分 到 右 
边 的 数目 来 计算 。 对 第 二 替代 分 支 可 做 类 似 的 定义 , 即 用 其 他 的 特征 来 最 优 的 允 近 “ 主 分 支 ”的 
子 集 划分 方式 。 自 然 , 当 进 行 测试 模式 不 足 的 分 类 的 ,我 们 使 用 不 涉及 测试 模式 的 缺 省 属性 的 第 
一 个 替代 分 支 。 这 种 缺 省 值 策 略 对 应 于 一 个 线性 模型 ,该 模型 用 与 它 强 相关 的 非 缺 省 属性 的 值 
代替 模式 的 缺损 值 。 此 策略 最 充分 地 利用 属性 间 的 (局 部 ) 联 系 的 优点 在 属性 值 缺 损 时 确定 分 
支 。 与 替代 分 支 最 密切 的 方法 是 虚 值 方法 ,其 中 缺损 值 用 它 的 最 或 然 值 赋 给 。 


例 2 替代 分 支 和 属性 丢失 

考虑 用 炉 不 纯度 构造 一 棵 单调 树 , 有 下 面 10 个 训练 样本 。 因 为 该 树 可 能 被 用 于 识别 10 
个 有 缺损 的 样本 , 故 给 每 个 节点 都 提供 替代 分 支 方 案 。 

在 所 有 基于 单一 特征 的 分 文中 , 主 分 支 “Is r <5. 52”, EP UI SE RR Be RARE EE” 
第 一 蔡 代 分 支 必 须 采 用 不 同 于 zi 的 特征 : 它 的 阐 值 被 恰当 的 设 定 , 使 之 有 类 似 主 分 支 的 划分 
方式 。 这 里 是 Is zs<3.5?"。 同 样 , 第 二 替代 分 支 只 剩 下 xz; 特征 可 用 , 它 的 阐 值 也 根据 使 之 
与 主 分 支 类 似 的 原则 来 选取 ,这 里 是 “Is zs 二 3. 5?”。 图 中 与 主 分 支 同 样 方向 划分 的 样本 被 作 
了 标记 。 它 们 的 数目 即 是 与 主 分 文 在 一 起 的 “预期 合作 ” 值 。 

识别 中 ,被 测 样本 中 若 包含 rz , 则 首先 用 主 分 支 判决 “Is zi 二 5.5?”。 然 而 如 果 zi 有 缺损 ， 
成 为 (x* ,2. 4 六 时 ,( 这 里 * 表 示 丢 失 的 特征 ), 就 需 用 第 一 替代 分 支 “Is z<3. 5?” 来 判决 右 
边 ,类 似 地 ,模式 (* ,2, x* )* 可 以 用 第 二 替代 分 支 ,“Is zs 二 3.5?” 送 往 左 边 。 通 过 对 所 有 3 个 
特征 的 穷 举 搜索 ,我 们 发 现 根 节点 的 主 分 支 应 该 是 “Is zi 二 5.5?”, 它 将 {Xi ,Xz ,Xs sX ,Xs yi) IK 
往 左 边 ,而 (yz ,ys + Ya o Ys } 在 右边 ,正如 图 中 所 示 。 
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现在 开始 寻找 第 一 替代 方案 ,这 里 必须 采用 zz: 或 zs 。 仍 通过 穷 举 搜 索 RER Is zs 去 
3.5?” 具 有 与 主 分 支 在 一 起 最 大 的 “预期 关联 ”。 这 里 是 8, 因 为 图 中 有 8 个 样本 被 同方 向 的 划 
分 。 第 二 替代 分 文 只 能 用 剩 下 的 zs 。 我 们 发 现 用 规则 “Is xz; 二 3. 5?” 可 得 到 最 高 的 “预期 关 
联 ”, 这 里 是 6( 很 偶然 的 ,这 种 分 支 并 不 对 应 最 优 的 不 纯度 下 降 。 我 们 选择 它 是 因为 它 最 接近 
主 分 文 的 划分 )。 以 上 虽然 只 描述 了 根 节 点 的 分 支 , 其 他 节点 的 做 法 采用 相同 的 概念 ,但 是 更 
为 简单 ,因为 样本 点 变 少 了 
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属性 丢失 未 必 都 是 坏事 ,有 时 反而 能 提供 某 些 信息 。 比 如 在 医疗 诊断 中 ,一 个 属性 (如 血 
糖水 平 ) 不 见 了 ,也 许 意味 着 医师 不 知 什 么 原因 没有 测量 它 。 如 此 ,丢失 属性 可 作为 一 个 新 特 
征用 于 分 类 中 。 


8.4 其 他 树 方 法 


上 面 讨论 的 基本 技术 可 以 岩 信 到 几乎 所 有 的 树 分 类 器 中 去 ， 实际 上 ,我 们 上 面 的 讨论 早 
已 超出 了 最 原始 的 CART 所 涉及 的 核心 技术 了 。 虽 然 大 多 数 的 树 生 长 算法 都 选用 了 不 纯 
度 的 公式 ,但 对 于 停止 规则 . 剪 枝 方法 和 丢失 属性 的 处 理 , 都 有 多 种 不 同 的 选择 方案 。 这 里 只 
讨论 另外 两 种 流行 的 树 算 法 。 

8.4.1 ID3 

ID3 的 名 称 由 来 是 因为 它 是 一 系列 的 “交互 式 二 分 法 ”程序 的 第 3 版 (interactive dichoto- 
mizer-3)。 它 的 设计 意图 只 是 采用 处 理 “ 语 义 ( 无 序 ) 数 据 ”。 如 果 问 题 涉及 实 值 变 量 , 则 首先 
装填 到 整数 格子 中 ,其 中 的 间隔 被 当 作 无 序 语义 属性 来 处 理 。 每 个 分 支 具 有 分 支 因 子 B,.B, 
等 于 离散 属性 格子 的 数目 。 在 ID3 的 实际 应 用 中 ,由 于 很 少 只 用 二 分 树 , 所 以 常 需 利用 “增益 
比 不 纯度 ”(8. 3 节 )。 这 种 树 的 层 数 与 属性 变量 的 个 数 相 同 。 生 长 算法 持续 进行 ,直到 所 有 叶 
节点 都 为 纯 , 或 者 没有 其 他 待 分 支 的 变量 为 止 。 虽 然 在 ID3 的 标准 版 本 中 没有 剪 枝 操作 ,但 是 
也 可 以 直接 运用 前 面 提 到 的 前 枝 技术 (上 机 习题 3) 。 





332 E 第 8 章 


8.4.2 C4.5 


C4.5 算法 是 ID3 的 后 继 和 改进 ,也 是 最 流行 的 分 类 树 方法 。 其 中 实 值 变量 的 处 理 如 
CART 一 样 ,对 语义 属性 则 采用 多 重 分 支 (B>2) 。 不 纯度 的 计算 同 ID3 一 样 是 “增益 比 不 纯 
度 “ 式 47))。 本 算法 利用 了 分 支 的 统计 显著 性 的 局 发 式 技术 来 实现 前 梳 。 

C4.5 与 CART 的 一 个 显著 差别 是 对 缺损 模式 的 处 理 上 。 在 训练 阶段 ,C4. 5 并 没有 为 后 
继 的 缺损 模式 的 分 类 提供 专门 的 考虑 。 特 别 是 ,并 没有 提前 计算 替代 分 支 。 如 果 分 支 率 为 B 
的 节点 N 查询 某 个 丢失 的 特征 时 ,C4. 5 将 遵循 所 有 B 个 可 能 的 回答 ,直到 下 层 B 个 叶 节 点 。 
最 终 的 分 类 结 采 是 依据 B 个 叶 节 点 的 加 权 标 志 , 其 中 权 值 是 在 N 处 进行 的 各 种 判决 的 概率 值 
(这 些 概率 取 目 训练 样本 在 入 出 判决 的 情况 )。 六 的 每 一 个 后 继 节 点 都 可 看 作 实现 部 分 分 类 
模型 的 一 棵 子 树 的 根 。 这 种 处 理 “ 丢 失 属 性 ”的 方案 ,就 是 用 训练 样本 在 N 点 导致 的 判决 概率 
PON) ,对 与 N 对 应 的 部 分 分 类 模型 进行 加 权 。 与 CART 中 的 替代 分 支 方案 不 同 的 是 ,本 算 
法 没有 利用 特征 间 的 相关 性 。 正 因为 C4.5 没有 替代 分 支 的 概念 ,因而 也 没 必 要 存储 它们 ,所 
以 如 果 很 关心 算法 的 空间 (存储 ?复杂 度 时 ,本 算法 要 比 CART 优越 得 多 。C4. 5 算法 能 够 实 
现 基 于 树 规 则 的 剪 梳 。 每 个 叶子 都 关联 一 条 规则 ,该 规则 可 从 树 的 根 节 点 直到 叶 节 点 的 路 径 
上 以 逻辑 合 取 式 的 形式 读 出 。 一 种 所 谓 “C4.5 规则 ”的 技术 能 消除 规则 中 宛 余 的 父 本 节点 。 
为 了 理解 这 一 点 ,考虑 图 8-6 下 方 树 的 最 左边 的 叶子 , 它 对 应 下 述 规则 ， 


IF| (0.04x, + 0.16x2 < 0.11) 
AND (0.27x1 — 0.44x2 < —0.02) 
AND (0.96x; — 1.77x2 < —0.45) 
AND(5.43x; — 13.33x2< —6.03)] 

THEN xew 


这 条 规则 可 以 简化 为 
IF| (0.04x1 + 0.16x» < 0.11) 
~ AND(5.43x1 — 13.33x2 < —6.03)] 
THEN x € wi 


如 图 8-6 Bras ,特别 注意 到 即使 靠近 根 节点 的 信息 也 能 被 C4. 5 规则 剪 枝 。 这 上 比 利用 叶子 合并 
的 不 纯度 前 校 技术 更 加 通用 。 
8.4.3 哪 种 树 分 类 器 是 最 优 的 

在 第 9 章 中 ,我 们 将 就 不 同 分 类 器 的 对 比 展开 一 般 性 的 讨论 。 本 节 , 我 们 只 对 树 分 类 器 中 
各 种 不 同 的 实现 步骤 做 对 比 研 究 。 这 样 要 比 直 接 比 较 树 分 类 器 的 不 同 的 具体 实现 (如 
CART、ID3、C4. 5 等 ) 更 有 意义 。 毕 竟 , 只 要 仔细 地 设计 ,设计 者 可 以 选用 任何 的 恰当 的 特征 
PAE BARR ,不 纯度 测量 技术 .停止 准则 及 剪 梳 技 术 等 来 构建 一 棵 分 类 树 。 许 多 基本 原则 适合 
于 各 种 模式 分 类 器 的 各 个 环节 。 这 是 很 自然 的 ,如 果 设 计 者 对 特征 预 处 理 有 深入 的 理解 ,那么 
就 应 该 充分 利用 。 在 ID3 的 早期 版 本 中 ,对 实 值 变 量 的 装填 过 程 并 没有 用 到 次 序 的 信息 ,那么 
大 不 会 导致 计算 代价 太 大 的 话 , 就 应 该 试 着 去 利用 。 人 不 纯度 在 大 多 数 情况 下 工作 得 很 好 , 因 
而 一 般 是 缺 省 选用 的 。 通 常 , 剪 枝 技 术 要 比分 支 停止 技术 或 交叉 验证 技术 更 多 被 采用 ,因为 它 
充分 利用 了 训练 集 的 信息 。 当 然 , 剪 枝 很 大 的 样本 集 时 计算 代价 很 高 。 对 于 含 较 多 噪声 和 具 
有 统计 本 性 的 问题 ,规则 剪 枝 用 的 相对 较 少 。 但 是 ,如 有 果 模 式 的 确 是 利用 规则 产生 的 , 它 确实 
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可 起 到 化 简 的 作用 。 类 似 , 判 定 树 不 适合 去 推断 出 十 分 简单 的 概念 ,比如 , 当 一 半 以 上 的 二 值 
离散 属性 都 取 十 1 值 时 。 像 大 多 数 分 类 问题 一 样 , 只 有 通过 对 广泛 问题 的 试验 , 才 可 以 获得 丰 
神经 验 和 对 问题 的 深刻 洞察 。 没 有 任何 一 种 树 的 算法 是 主导 性 的 或 者 被 主导 。 

对 相当 大 范围 的 应 用 来 说 , 树 分 类 器 要 比 以 前 讨论 过 的 很 多 分 类 器 ,如 神经 网 络 分 类 器 和 
最 近邻 分 类 器 等 ,能 生成 更 精确 的 分 类 结果 。 特 别 在 对 分 类 器 应 采用 的 合适 形式 的 驳 验 信息 
不 足 的 情况 下 。 对 于 非 度量 数据 , 树 分 类 器 特别 有 用 。 也 正 因 为 这 个 理由 , 它 成 为 模式 识别 研 
究 中 一 个 重要 的 工具 。 


"8.5 串 的 识别 


假定 模式 是 以 离散 的 有 序 序列 或 串 的 形式 表达 的 ,比如 英语 单词 中 的 字母 序列 ,或 基因 中 
的 DNA 序列 ,如 AGCTTCGAATC”( 字 母 A.G、C、T 分别 代表 核酸 的 腺 曼 险 、 鸟 茜 险 、 胞 啼 
啶 、 胸 腺 喀 啶 ) 。 对 这 种 离散 符号 串 进 行 的 模式 分 类 在 很 多 方面 有 别 于 前 面 讲 过 的 普通 的 技 
术 。 因 为 串 的 基 元 ,被 称 为 “字符 ”“ 字 ”或 “符号 ”, 都 是 语义 属性 ,在 它们 之 间 没 有 明显 的 距离 
度量 概念 。 
串 并 不 是 向 量 , 不 过 我 们 还 是 用 熟悉 的 黑体 字母 (如 x=“AGCTTC”) 来 表达 一 个 模式 、 一 
个 串 .一 个 模板 或 一 般 地 说 一 个 单词 (当然 , 它 未 必 与 自然 语言 如 英语 、 法 语 中 单词 的 含义 一 
致 ) 。 一 段 很 长 的 子 串 常 叫做 为 文本 。x 中 任何 一 段 连续 的 串 , 称 为 子 串 或 片断 ,或 者 更 常用 
的 说 法 x 的 一 个 因子 。 例 如 “GCT” 是 *AGCTTC” 的 一 个 因子 ，。 
关于 串 的 计算 问题 有 很 多 。 对 模式 识别 来 说 ,以 下 一 些 问题 至 关 重 要 
。 串 匹配 ”给 定 串 x 和 文本 tert, HE x ETDE tert 的 一 个 因子 。 如 果 是 ,给 出 它 在 哪个 
位 置 出 现 。 

。 编辑 距离 ”给 定 两 个 串 x 和 y, 计 算 能 够 将 x 转化 为 y 的 最 少 的 基本 操作 次 数 。 基 本 操 
作 包 括 字 符 插 入 、 字 符 删除 和 字符 替换 。 

。 容错 的 串 匹 配 Be x 和 文本 tezi, 在 文本 中 和 寻找 与 x 匹配 代价 最 小 的 因子 位 置 。 

。 带 “通配符 ”的 匹配 本 问题 与 基本 串 匹 配 类 似 ,除了 多 了 一 个 特殊 符号 9?, 称 为 遂 配 符 
(don’t-care symbol) , 它 可 与 任何 字符 相 匹 配 。 

现在 ,我 们 开始 考虑 在 模式 识别 中 这 些 串 的 基本 操作 的 用 途 。 基 本 的 串 四 配 可 看 作 是 模 
板 匹 配 的 一 个 极端 情形 ,比如 在 某 个 大 的 电子 文集 ,如 一 本 电子 版 的 小 说 或 数字 图 书馆 中 找到 
某 特定 的 英语 单词 。 再 比如 ,假定 有 一 本 大 部 头 的 小 说 ,比如 梅 尔 维 尔 (Herman Melville) 的 
《 白 鲸 记 》 Moby Dick) ,我 们 希望 判断 一 下 它 究竟 和 “ 鱼 ? 有 关 , 还 是 与 “打猎 > 有关。 于 是 ,与 
鱼 有 关 的 测试 串 ( 或 关键 词 ) 可 能 包含 : “外 鱼 ”“ 鲜 色 ”“ 捕 鱼 ”“ 海 洋 ” 等 ,而 与 打猎 有 关 的 可 
能 包括 “ 枪 ”“ 子 弹 ”“ 射 击 ” 等 。 串 匹配 能 够 给 出 文本 中 关键 词 出 现 的 次 数 。 简 单 根 据 出 现 次 
数 的 统计 就 可 用 于 文本 的 主题 的 分 类 (对 于 后 期 判断 ,其 他 一 些 更 复杂 的 技术 也 常 被 采用 )。 

“ 带 通 配 符 的 串 匹 配 ” 问 题 与 标准 串 匹 配 密切 相关 ,尽管 ,我 们 将 看 到 二 者 的 最 优 算 法 是 不 
同 的 。 考 虚 如 下 情况 ,在 DNA 序列 分 析 中 获得 一 DNA 片断 ,比如 x=“AGCCG 99999G 
ACTG”, 其 最 前 和 最 后 的 部 分 ( 称 为 主体 ) 对 编码 蛋白 质 非常 关键 ,然而 其 中 间 有 5 个 字母 组 
成 的 部 分 却 已 经 知 到 非常 惰性 ,对 编码 不 起 任何 作用 。 如 果 给 定 一 段 很 长 的 DNA 序列 ( 文 
本 ),“ 带 通配符 的 串 匹配 ” 算 法 可 以 判定 是 否 该 文本 中 能 产生 特定 的 蛋白 质 。 

串 的 各 种 操作 中 对 模式 分 类 最 有 用 当 属 编辑 距离 了 ,这 能 容易 的 用 最 近邻 分 类 算法 的 术 
语 来 理解 (第 4 章 )。 回 想 一 下 ,每 个 有 类 别 标记 的 模式 原型 被 分 开 存储 。 未 知 的 测试 样本 是 
通过 与 其 距离 最 近 的 模式 原型 来 获得 分 类 。 假 定 这 里 的 模式 原型 是 串 ,被 测 串 就 要 与 已 存储 
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的 原型 串 进行 最 近邻 的 比较 和 判断 。 例 如 语音 识别 器 对 发 音 中 10ms 的 声音 片断 进行 最 可 能 


的 音素 标记 ,得 到 一 个 离散 的 音素 串 , 如 “tttoooonn”。 于 是 可 用 编辑 距离 寻找 与 之 最 接近 的 
训练 样本 串 , 从 而 得 到 类 别 标记 。 

上 述 方案 的 主要 困难 在 于 :对 于 串 , 我 们 显然 缺乏 相关 的 度量 或 距离 的 一 般 概念 。 为 了 能 
够 处 理 下 去 ,我 们 必须 为 串 之 间 的 比较 引入 一 个 距离 的 概念 。 正 如 我 们 下 面 要 看 到 的 ,所 谓 的 
串 之 加 的 “编辑 距离 ”, 是 指 将 一 个 测试 串 变 换 成 原型 串 所 需 的 最 少 的 基本 操作 次 数 。 

“容错 的 串 匹 配 ? 问 题 包含 两 方面 的 含义 :一 是 基本 串 匹 配 , 二 是 编辑 距离 。 问 题 的 目的 是 
在 文本 中 发 现 所 有 与 x 足够 接近 的 因子 。 对 于 接近 度 的 衡量 ,我 们 选择 了 “编辑 距离 ”?。 它 与 
基本 串 匹 配 问题 的 差别 仅 在 于 匹配 允许 一 个 “错误 容 限 ”(tolerance)。 容 错 的 串 匹 配 , 比 如 ,可 
在 一 个 可 能 存在 拼写 错误 的 数字 文本 中 搜索 关键 字 时 找到 应 用 。 

很 上 自然， 确定 该 考虑 操作 哪 一 个 “ 串 ” 是 与 特定 问题 相关 的 。 然 而 ， 即 使 给 定 目 标 串 和 
错误 容 限 等 ， 上 述 串 匹配 问题 只 不 过 是 在 概念 上 十 分 简单 而 已 。 真 正 的 困难 在 于 现实 中 的 问 
题 规模 的 扩大 。 比 如 在 人 类 基因 中 的 3 x 10?* 个 碱 基 对 中 发 现 特定 DNA 片断 ， 或 在 电子 版 
的 《战争 与 和 平 》 中 3 x 10 "字符 中 搜索 某 个 单词 ， 或 者 一 个 海量 数字 书库 中 的 大 约 1023 个 
字母 的 规模 。 对 这 种 情况 ， 只 有 努力 通过 大 量 的 技巧 和 启发 式 的 帮助 ， 才 能 使 问题 在 计算 上 
现实 可 行 。 

下 面 将 详细 讨论 串 的 4 种 操作 。 

8.5.1 Bee 

串 匹 配 中 最 有 用 和 最 基本 的 操作 就 是 测试 一 个 候选 串 x 是 否 是 文本 的 一 个 因子 。 很 自 
然 ,假定 文本 text 中 的 字符 个 数 用 length[ textj] 或 |text| 表 示 , 比 x 中 的 多 。 当 然 ,为 了 计算 上 
的 意义 ,一般 有 |texi| 污 |x| 。 每 个 离散 字符 均 取 自 一 字母 表 4。 例 如 ,二 进 制 或 十 进 制 数字 、 
英文 字母 或 4 个 DNA BRE, BA = (0,13 8h (0,1,2,° , 93 Ria, byc,-,z} M{(A,G.C,T}, 一 
个 位 移 s 定义 为 将 x 的 首 字 符 在 text 中 偏 移 * 十 1 个 位 置 的 操作 。 串 匹配 的 基本 问题 是 问 在 
text 中 是 否 存在 一 个 有 效 匹 配 ,使 x 中 的 字符 与 text 中 恰 一 一 对 应 。 一 般 的 串 匹 配 就 是 要 找 
到 所 有 的 有 效 位 移 。 


图 8-7 一 般 串 匹配 是 在 f ] f p 
text 中 找 全 部 位 移 对 应 x 的 el al bl | c| a > vb) a fl a | |e | 
地 方 。 这 样 的 位 移 称 为 有 效 
Wh, ERB, x= “bdac” H 


定 是 text 的 因子 ,而 和 且 s=5 i baja cl 
是 惟一 有 效 位 移 。 











最 直接 的 串 匹 配 算法 就 是 依次 位 移 和 测试 是 否 有 效 。 如 下 是 “朴素 的 串 匹 配 算法 ”(naive 


string-matching) 。 








算法 1 (朴素 的 串 匹 配 算法 ) 
l begin initialize A,x,iext,n<—length[ tezt |,m<—lengthL x] 
2 sO 
while s <n—m 
if xL1 … m]=texzt[s+1 -+s+m] 
then 打印 “模式 出 现在 位 移 ” 
s<st+] 


mom UO A w 
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7 return 
5 end 


算法 1 明显 不 是 最 优 的 算法 。 在 最 坏 的 情况 下 需要 OCn—mt+ lm Rite. WR text 
和 串 x 都 是 随机 的 ,那么 本 算法 相当 有 效 ( 参 见习 题 18)。 朴 素 的 串 匹 配 算法 的 弱点 在 于 每 次 
候选 位 移 信息 并 未 被 其 后 继 的 位 移 过 程 充分 利用 。 另 一 种 更 复杂 的 Boyer-Moore 算法 , 则 巧 
妙 地 利用 了 这 种 信息 。 


算法 2 (Boyer-Moore 算法 ) 
1 begin initialize 4 ,x,¢ezxt,n<-length| text ],m<-length|x | 


2 F(x) Sia oh BLY Be R 

3 G(x) <8 Ja i PRL 

4 s*—0 

5 while s&n— m 

6 do j<-m 

7 while ; >0 and x(j |=textlst+j | 
8 do j<j—1 

9 证 7 一 0 

10 then 打印 “模式 出 现在 偏 移 ” 
11 s<s+G(0) 

12 else s<-s-+maxlG(j) .j -—FCezt|s+j ]) | 
13 return 

14 end 


TAY FCA SF RF AIG HY A EY Boyer-Moore 算法 很 像 朴素 的 串 匹 配 算法 ,除了 
有 两 点 不 同 。 其 一 ,在 每 个 候选 位 移 时 ,上 串 丐 配 是 道 序 进行 的 ,也 即 从 后 向 前 (第 8 行 ) ,其 二 ， 
第 11 和 12 行 表明 ,新 的 位 移 增 量 可 以 不 是 1。 算 法 2 的 威力 来 自 两 个 启发 式 规 则 ,使 得 位 移 
可 以 大 步 前 进 。 字 符 的 比较 ,通过 “好 后 缀 ”启发 式 规则 和 “ 坏 字 符 ” 启 发 式 规则 可 以 并 行 地 独 
立地 进行 。 如 果 检 测 到 一 个 错误 匹配 ,那么 每 个 启发 式 都 将 提供 一 个 偏 移 增 量 加 在 ; 上 ,基于 
s 可 以 安全 的 跳 过 许多 字符 而 不 会 漏 掉 任何 一 个 有 效 位 移 。 偏 移 量 越 大 ,s 相应 增加 得 越 快 。 

“ 坏 字 符 启发 式 规 则 ”(bad-character heuristic) 利 用 text 中 最 右边 与 位 移 后 的 x 不 匹配 的 
那个 字符 。 由 于 字符 比较 是 从 右 同 左 进行 ,所 以 可 以 很 快 地 (高 效 地 ) 发 现 坏 字 符 。 因 为 目前 
的 位 移 无 效 , 所 以 可 以 直接 对 偏 移 量 增加 一 个 量 , 而 不 必 再 做 其 他 字符 的 比较 。 坏 字符 启发 式 
得 出 的 增 量 是 将 x 中 从 右 数 最 先 遇 到 的 坏 字符 向 左 位 移 直 到 与 tere 中 的 坏 字 符 对 齐 所 需 的 
偏 移 量 。 这 样 做 能 确保 没有 “有 效 位 移 ” 被 跳 过 (图 8-8). 

现在 考虑 “好 后 缀 启发 式 规 则 ”(good-suffix heuristic), 它 与 上 一 个 启发 式 是 并 行 工作 的 ， 
同样 也 得 出 一 个 安全 的 位 移 增 量 。 所 谓 x 的“ 后缀”, 一 般 是 指 x 最 右 端的 一 个 子 串 或 x 的 因 
子 ( 类 似 地 ,“ 前 级 ”是 要 包含 x 最 左 端 的 子 串 )。 在 位 移 ;中 ,车 x MER tert 中 右边 的 连续 
字符 匹配 , 则 称 其 为 “好 后 缀 ?或 “匹配 后 级 ”。 与 前 面 一 样 , 因 为 字符 从 右 向 左 匹配 ,所 以 发 现 
“好 后 缀 ”的 比较 次 数 很 少 。 一 旦 比较 到 一 个 不 匹配 的 字符 , 则 串 x 就 可 大 幅 向 右 偏 移 , 直 到 在 
text 中 有 发 现 一 个 好 后 缀 为 止 。 这 也 保证 了 不 会 跳 过 有 效 移 位 。 两 个 启发 式 同 时 给 出 安全 增 
量 ,Boyer-Moore 算法 会 选择 其 中 较 大 的 一 个 。 局 发 式 规 则 依赖 于 函数 入 和 9。 和 天 (x) 是 “最 后 出 
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HR pki BU” Clast-occurrence function) ,仅仅 是 x 的 字母 表 中 每 个 字母 从 右 数 最 先 遇 到 时 的 位 置 
表 ( 位 置 仍 是 从 左边 开始 计数 的 )。 对 图 8-8 中 的 模式 ,该 位 置 表 包 括 :a,6;e,8;i,4;m,5;S,9 
和 t,8。 其 他 20 个 未 出 现 的 字母 赋 0 值 。 构 造 表 的 过 程 很 容易 并 且 只 需要 做 一 次 (习题 22 )， 
所 以 并 不 太 影 响 Boyer-Moore 算法 的 计算 代价 。 

“好 后 缀 函数 "9(xX) 创 建 一 个 表 , 它 为 x 的 每 一 个 可 能 的 后 缀 都 给 出 其 第 二 次 在 x 中 最 右 
we HL. FER 8-8 的 例子 中 ,后 级“s” 也 出 现在 x 的 第 二 个 位 置 。 男 外 ,后 缀 “es” 出 现 
在 首位 置 ,后 缀 “tes” 并 未 再 次 出 现 . 导 致 其 他 的 后 级 也 不 可 能 再 次 出 现 , 所 以 全 赋 0 值 。 这 样 
G(x) 中 只 有 两 个 非 零 项 :s.2;es,1。 

在 实践 中 ,以 上 两 个 启发 式 使 本 算法 非常 适合 串 行 计算 机 实现 。 另 外 有 一 些 有 利 的 算法 
概念 也 迅速 被 采纳 ,它们 包括 能 使 x 高 效 递 增 位 移 的 预先 计算 图 数 ,及 适合 于 并 行 计算 的 问题 
RY a e 

许多 应 用 问题 需要 多 个 串 的 搜索 ,比如 在 文本 中 查找 若干 关键 词 。 有 了 时 某 个 目标 串 是 其 
他 目标 串 的 因 了 于 。 假 定 我 们 宁可 要 找 更 长 的 串 ,而 并 非 是 它 的 一 个 因子 串 。 于 是 ,对 关键 词 包 
fG “beat” “eat” “be "的 情况 ,我 们 宁可 从 文本 text=“when chris beats the drum” 找 出 
“beat”, 而 非 其 他 两 个 ,虽然 它们 的 确 就 “在 ”那里 。 这 是 “ 子 集 - 超 集 ” 问 题 的 一 个 例子 。 虽 然 
这 很 有 些 偏 向 长 串 .但 从 概念 上 讲 这 种 做 法 还 是 很 直接 的 (上 机 练习 8). 
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图 8-8 ”利用 Boyer-Moore 算 法 进行 串 匹配 利用 了 在 从 某 个 位 移 ; 到 其 后 面 的 位 移 所 提供 的 信 
息 。 这 个 算法 一 般 要 比 一 次 只 移动 一 个 位 置 的 朴素 串 匹 配 算法 计算 量 小 。 项 部 的 图 示 出 了 文本 
text 和 模式 x 的 一 次 无 效 位 移 。 匹 配 是 从 右 向 左 进行 的 。 最 早 配 上 的 两 个 字符 是 “es”, 这 是 一 个 
FER. SRG ee AS DEY) tect 中 的 “i” 称 为 “ 坏 字 符 ”。 坏 字符 启发 式 要 求 根据 x 中 “i” 的 出 
现 位 置 将 位 移 增 加 3, 如 图 中 部 。 底 部 的 图 显示 了 好 后 缀 启发 式 的 作用 ,根据 x 中 的 “好 后 缀 函数 ” 
要 求 移 位 增加 7。BoyerMoore 算法 的 第 11 行 和 12 行 说 明 从 两 个 增 量 中 选择 较 大 的 一 个 ,这 里 是 
7。 接 着 下 来 的 位 移 操作 ,尽管 在 图 中 没有 再 绘 出 ,但 是 我 们 可 以 自己 计算 出 , 即 再 经 过 一 个 增 量 
为 7 的 位 移 , 就 发 现 了 有 效 匹配 








8.5.2 编辑 距离 
利用 编辑 距离 (edit distance) 进 行 串 识别 的 根本 思想 来 源 于 最 近邻 分 类 器 (第 4 章 )。 首 
先 存 储 全 部 的 赋 有 类 别 标记 的 原型 样本 串 ,测试 串 依 次 与 存储 的 原型 串 进行 比较 ,并 计算 “ 距 
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离 “ 或 相似 性 得 分 ,然后 按照 最 近邻 的 类 别 来 标记 。 

与 第 4 章 的 实 值 变量 不 同 , 串 之 间 的 相似 性 或 差异 性 ,并 无 很 显然 的 测量 。 例 如 ,并 不 清 
Æ“ ”abbccc "究竟 与 "aabbcc” 更 接近 ,还 是 与 “abbcccb” 更 接近 。 为 了 处 理 , 我 们 引入 了 一 种 衡量 
串 之 同 距 离 的 上 度量。 这 种 x 与 y 之 间 的 “编辑 距离 ?描述 从 x 变 到 y 所 需 的 最 少 的 基本 操作 的 
步 数 。 这 里 的 基本 操作 包括 : 

。 替换 x 中 一 个 字符 被 y 中 对 应 字符 换 掉 。 

e HA y 中 一 个 字符 播 入 到 x 中 ,使 x 长 度 加 1。 

e 删除 x 中 一 个 字符 被 删 去 ,使 x 长 度 减 1。 
有 时 ,也 会 考虑 第 4 种 操作 互 换 (interchange) ,又 称 旋 换 (twiddle) 或 换 位 (transposition) , € 
将 x 中 两 个 邻接 字符 的 位 置 互 换 。 这 样 一 次 互 换 可 将 x=“asp” 变 成 y=“sap”。 因 为 这 种 互 
换 可 表示 成 两 次 替换 ,所 以 我 们 并 不 常用 它 。 

令 C 是 一 个 mx 的 与 代价 (或 “距离 ”) 有 关 的 整数 矩阵 , 令 8S(。 , +) HA Kronecker A K 
数 的 推广 , 它 在 两 变量 (字符 ) 匹 配 时 取 1, 反之 取 0。 基 本 的 编辑 距离 算法 如 下 所 示 


算法 3 (基本 编辑 距离 ) 
l begin initialize 4,x,y,m~<-length Lx |,n<-length| y] 








2 C[0,01]<—0 
3 ix-Q 
4 do :< :十 ] 
5 C[i,0 ]<i 
6 until: = m 
7 j0 
8 do j—j+1 
9 CLO, j]j 
10 until j=n 
11 1—0; j—0 
12 do i<-i+ 1 
13 do j<-j+l 
14 Ci Jj J=min C21 j 141.0 j V1. C171 Ly 
插入 删除 不 变 / 交 换 
15 until 7 =» 
16 until : =m 
17 return Cl m,n | 
18 end | 


第 4 到 10 行 用 离开 i 一 0,j 一 0 点 的 整数 “ 步 数 ”初始 化 了 CC 的 最 左 列 和 最 顶 行 。 算 法 的 
核心 :第 14 行 是 逐 行 寻找 C 中 的 最 小 代价 元 素 ( 图 8-9)。 本 算法 因而 也 是 局 部 的 和 贪心 的 ， 
因为 每 一 列 的 距离 值 只 与 它 前 一 列 有 关 。 线 性 规则 技术 也 能 用 于 寻找 全 局 最 优 , 但 常 涉 及 很 
大 的 计算 量 ( 习 题 28) 。 

如 采 插 人 和 删除 代价 相等 ,那么 矩阵 具有 对 称 性 。 然 而 ,我 们 也 可 通过 在 第 14 行 中 对 不 
同 的 基本 操作 使 用 不 同 的 代价 函数 来 推广 该 算法 。 比 如 ,插入 比 替换 的 代价 高 两 倍 。 在 推广 
的 情况 下 ,诸如 对 称 性 或 三 角 不 等 式 性 质 将 不 再 保持 ,编辑 距离 也 不 再 是 一 个 严格 意义 上 的 真 
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正 度量 了 (习题 27) 。 

如 图 8-9 所 示 ,Xx= 一 “excused "能 利用 一 次 蔡 换 和 两 次 插 人 转化 成 y= “exhausted”, FRY 
出 了 转换 过 程 及 对 应 C 的 元 素 。 这 个 例子 中 基本 操作 的 代价 是 1 ,编辑 距离 可 从 C 的 汇聚 点 
( 右 下 角 ) 读 出 ,C(7,9) 二 3。 


excused 源 串 
exhused FR h (Rc 
exhaused iA a 





exhausted 插入 +t 
exhausted H $r E 





图 8-9 BxMmBys 
间 的 编辑 距离 的 计算 





如 图 所 示 。 算 法 3 从 图 | mk: 
中 的 源 ;= 一 0,.7 一 0 开 删除 字母 x 

始 ,然后 逐 列 填充 代价 L 插入 : 

矩阵 ,直到 右 下 角 的 汇 。 x 字母 y 插 入 x* 
CLi=m, j=n]. MP N 交换 : 

Ay LA i HH “excused” All 字母 x 由 字母 替代 
“exhausted” Z E] ÉJ i b Si 不 变 





辑 距 离 是 3 


8.5.3 计算 复杂 度 

很 显然 ,算法 3 具有 OCmn) 的 时 间 复 杂 度 ,其 空间 存储 复杂 度 是 O(m), 因 为 在 计算 
CLi,j7j(i 二 0 到 区) 时 ,只 需 存 储 前 一 列 的 元 素 。 由 于 串 匹 配 的 编辑 距离 在 整个 计算 机 科学 中 
都 十 分 重要 ,已 有 大 量 的 算法 被 提出 。 在 这 里 我 们 不 准备 深究 其 细节 (可 参考 相应 文献 ) ,而 仅 
仅 指 出 确实 存在 结构 很 复杂 的 串 匹 配 算法 ,但 是 其 时 间 复 杂 度 只 有 OCm 十 n)。 
8.5.4 容错 的 串 匹 配 

“容错 的 串 匹配 ”问题 存在 几 种 不 同 的 描述 版 本 。 这 里 我 们 研究 的 是 :给 定 一 个 串 x 和 一 
段 文 本 text, 寻找 恰当 的 移 位 使 得 x 与 text 的 一 个 因子 的 编辑 距离 最 小 (图 8-10). APPL 
配 的 算法 很 像 是 编辑 距离 算法 。 令 EE 是 一 个 代价 矩阵 ,类 似 于 算法 3 中 的 C, 试 图 寻找 一 个 移 
位 ,使 与 text 的 因子 的 距离 最 小 ,或 形式 化 的 表示 为 minCLx,yj ,其 中 主 y E tert 的 任 一 因子 。 
为 达到 此 目的 ,算法 必须 计算 E, KIRE 

E/ 7,7 ]=minLC(xL1-:-7],yL1--7])) | 

两 个 问题 (无 错误 或 容错 ) 的 根本 区 别 在 于 :在 容错 算法 中 EL0,jyj 被 初始 化 为 0, 而 不 是 基 
本 算法 中 的 7。 这 种 初始 化 的 方法 突出 了 这 样 的 事实 , 即 x 的 “ 空 ” 的 前 缀 可 以 任意 匹配 tert 
的 空 因 子 ,而 无 任何 代价 。 

两 种 次 要 的 启发 式 规则 可 用 于 降低 容错 匹配 的 计算 负担 。 第 一 ,除非 在 很 不 寻常 的 情况 
下 ,候选 因子 的 长 度 大 致 与 lengthLxj 相 同 。 第 二 ,对 每 一 个 候选 位 移 , 编 辑 距 离 一 旦 超过 当前 
的 最 小 值 ,计算 就 可 以 被 中 止 。 在 实践 中 ,后 一 个 启发 式 在 降低 计算 量 上 效果 显著 。 否 则 的 
话 , 本 算法 的 计算 量 与 基本 编辑 中 离 算 法 几乎 一 样 。 
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图 8-10 容错 的 串 匹 
配 是 要 找到 x 与 文本 中 








的 因子 的 编辑 距离 最 -At 
小 的 有 效 位 移 *。 在 这 su 
里 ,最 小 的 编辑 距离 是 -re 
1 ,对 应 uw 一 1, 有效 位 移 车 侍 权 式 匹 配 : 
是 s=11 -个 字符 不 匹配 
编辑 距离 = | 


8.5.5 带 通配符 的 串 匹 配 

有 通配符 的 串 匹 配 ,在 形式 上 与 基本 串 匹 配 算法 一 样 , 除 了 在 x 或 test 中 存在 一 通配符 多 
可 以 与 任何 字符 匹配 (图 8-11)。 很 明显 ,修改 “简单 串 匹 配 ?算法 ,使 之 能 处 理 有 符号 的 情况 
驶 成 为 了 “ 带 通配符 的 串 匹 配 ?” 算 法。 但 上 述 算法 仍然 像 “ 朴 素 串 匹配 ?算法 一 样 存 在 效率 低下 
的 缺点 (习题 29) 。 然 而 ,试图 推广 Boyes-Moore 算法 使 之 包含 $ 字 符 的 努力 显得 十 分 困难 ,并 
ASR. AMHR BB“ SILER” (computer arithmetic) 的 某 些 基本 方法 。 这 虽 
然 很 吸引 人 ,但 会 偏离 本 书 的 中 心 议题 , 即 模式 识别 的 范畴 。 上 述 用 于 串 匹 配 的 技术 可 推广 用 
于 真 个 模式 识别 系统 中 ,只 要 有 某 种 特殊 类 型 的 “误差 容 限 ”。 





图 8-11 带 通配符 text lal alil. p ijn Jalelals/@|s t| Ola g| 
ÁJ $ De fin 5 R NES iat E Boa ad sd Wd bad Ra Bad ENE A Bi 
匹配 算法 基本 相同 ， 5 


除了 这 里 允许 有 “ 通 
配 符 ”, 它 可 以 与 任 i ante 
何 字 符 匹 配 。 图 中 模式 匹配 
表示 一 个 惟一 的 有 
效 位 移 
里 然 学 习 是 贯穿 模式 识别 中 一 个 普遍 和 基本 的 技术 ,但 是 在 串 匹 配 中 ,其 功用 却 很 有 限 。 
这 是 因为 设计 者 通常 明确 的 知道 他 想 搜索 的 是 哪 一 个 串 ,而 根本 用 不 着 去 学 习 。 当 然 , 如 果 一 


个 串 匹配 算法 是 作为 更 大 的 模式 识别 系统 的 一 个 部 件 ,那么 其 输出 结果 , 却 可 再 进行 学 习 。 
8.6 文法 方法 


到 目前 为 止 ,我们 尚未 仔细 考虑 可 以 用 来 产生 串 中 的 字符 序列 的 任何 细致 的 模型 。 从 现 
在 开始 ,研究 一 类 特别 的 规则 , 它 可 以 产生 某 种 串 , 其 中 的 结构 是 串 的 最 本 质 的 特征 。 通 常 这 
种 结构 是 分 层次 的 。 最 高 的 或 最 抽象 层 具 有 很 简单 的 形式 ,但 其 下 的 层次 具有 越 来 越 复杂 的 
形式 。 例 如 ,在 最 抽象 层 上 , 串 “The history book clearly describes several wars” 只 不 过 是 “一 
个 句子 ”。 但 在 更 细致 的 层次 上 , 它 可 表达 成 “一 个 名 词 短 语 后 跟 一 个 动词 短语 ”, 其 中 名 词 短 |) 
十 又 可 进一步 展开 ,动词 短语 亦 如 此 。 上 述 展 开 可 继续 进行 ,直到 到 达 单 个 的 单词 如 “The” 等 “1421 
等 。 这 些 单词 只 是 作为 串 中 的 “字符 ”或 “原子 ”, 它 们 没有 更 细 的 结构 ,不 能 再 展开 。 

还 可 考虑 合法 的 电话 号 码 串 :包括 地 区 代码 、 国 内 代码 和 国际 代码 。 上 述 号 码 具 有 严格 的 
结构 。 先 是 检查 国家 代码 是 否 存 在 ,车 没有 ,可 能 存在 国内 代码 ,如 果 国 家 代码 已 存在 , 则 紧 接 
着 应 是 所 允许 的 城市 代码 。 对 每 个 城市 代码 ,会 有 人 允许 的 分 局 码 和 本 机 号 码 等 等 。 正 如 我 们 
将 看 到 的 ,上 述 结构 容 易 用 文法 的 形式 明确 的 表示 。 并 且 , 如 果 结 构 的 确 存在 ,利用 文法 的 识 
别 可 提高 正确 率 。 例 如 ,文法 方法 可 用 于 对 一 个 完整 的 模式 识别 系统 提供 特殊 的 约束 ,该 系统 
以 统计 识别 器 作为 组 成 部 件 。 考 虑 一 个 用 于 数学 的 光学 字符 识别 OCR 系统 , 它 输入 点 阵 图 
像 ,识别 和 输出 数学 公式 。 数 学 符号 中 常 具 有 一 个 “ 空 槽 ”, 用 于 填充 某 特定 的 其 他 符号 。 上 述 
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过 程 可 以 用 文法 来 表达 。 于 是 ,积分 号 上 下 各 有 一 个 空 模 , 分 别 填 和 人 取 目 某 特定 有 限 集合 的 积 
分 的 上 下 限 ( 实 际 上 ,许多 数学 排版 软件 都 采用 了 文法 ,以 避免 作 者 误 斋 出 非法 的 公式 )。 能 够 
识别 积分 的 一 完整 识别 系统 ,能 够 利用 文法 来 限制 特定 槽 的 候选 类 别 , 以 提高 总 体 识 别 率 。 类 
似 的 ,考虑 利用 语音 识别 电话 号 码 进 行 自 动 拨号 的 应 用 。 一 个 统计 或 (HMM) 隐 马尔 可 夫 识 
别 器 应 检测 出 单词 ,识别 诸如 “8” 或 “100” 等 数字 。 后 继 的 一 个 基于 正则 文法 的 处 理 模块 应 充 
分 利用 电话 号 码 有 严格 约束 的 事实 ,正如 前 面 讲 过 的 那样 。 
还 将 研究 在 某 一 层次 上 很 简洁 的 规则 是 如 何 被 扩展 到 下 一 层 , 形 成 很 复杂 的 表示 。 通 常 
把 通过 规则 产生 的 串 ,叫做 "句子 ”(sentence) ,其 中 的 规则 称 为 “文法 ”grammar), 记 作 GOR 
自然 的 , 它 与 自然 语言 如 英语 或 法 语 中 的 概念 并 无 直接 的 关系 )。 相 应 的 模式 识别 的 任务 是 : 
给 定 一 甸子 和 一 文法 ,要 求 判定 该 句子 是 否 可 由 该 文法 产生 。 
8.6.1 文法 
” “文法 ”的 概念 十 分 普遍 和 有 有用。 严格 地 说 ,一 个 文法 G 包括 以 下 4 个 要 素 : 
。 符号 集 (symbol) ”每 一 个 句子 都 是 由 取 上 自 一 字母 表 A 的 字符 串 组 成 。 这 些 字 符 又 称 为 
基 元 符 .终止 符 或 字母 。 为 了 记录 ,通常 包括 一 个 空 号 (nulD) 或 空 串 (empty string) BH 
便 的 ,可 用 e 表 示 ,其 长 度 为 0。 加 在 任何 串 x 上 ,并 不 影响 x 本 刁 。 
变 元 (variable) 又 称 为 非 终 止 符 、 中 间 符 (intermediate symbol) ,有 时 也 叫 内 部 符号 
(internal symbol) ,都 取 自 一 个 集合 7。 
。 根 符号 (root symbol) 也 称 为 起 始 符 (starting symbol) ,是 一 种 特殊 的 内 部 符号 ,是 所 
有 导出 的 序列 的 源头 。 根 符号 取 自 集合 S。 | 
。 产生 式 (production) ”产生 式 规 则 (production rule) #, BS AA (rewrite rule) 集 或 简 
称 “ 规 则 ” 集 , 记 为 也 ,表明 了 如 何 将 一 系列 变 元 和 符号 转化 为 其 他 的 变 元 和 符号 。 规 则 
决定 了 文法 可 产生 的 核心 结构 。 例 如 如 果 A 是 一 个 内 部 符 ,c 是 一 终止 符 , 重 写 规 则 
cA 一 cc 表明 ,一 旦 串 中 出 现 了 cA 片断 , 它 就 可 替换 为 cc。 
这 样 ,文法 的 一 般 表达 就 包括 它 的 字母 表 ., 它 的 变 元 ,特定 的 初始 符 和 重 写 规则 , 即 G= ATS, 
也 )。 所 谓 用 文法 G 所 生成 的 语言 £(G) ,是 指 所 有 的 (可 能 有 无 穷 多 ) 能 通过 G 产生 的 串 的 集合 。 
考虑 两 个 例子 。 第 一 个 很 简单 并 且 抽 象 . 令 A=={a,b,c},S 二 S$S,T 二 (A,B,C}) ,及 
pi: $ -> aSsBA ORaBA po: AB > BA 


P= { p: bB— bb p4: bA — be 
ps: cA 一 cc Po: aB — ab 


为 了 使 规则 表达 更 紧 资 ,我 们 将 具有 相同 前 提 的 规则 用 或 者 合并 了 。 例 如 ,pi 其 实 是 两 条 规则 
S-~aSBA 和 S—>aBA 的 缩 并 。 如 果 按 以 下 顺序 对 S 应 用 重 写 规则 ,可 以 得 到 如 下 两 种 情况 : 





通过 上 述 重 写 规则 的 应 用 ,再 也 找 不 到 能 与 规则 的 左边 (前 提 ) 相 匹配 的 项 ,于 是 过 程 完 成 。 这 
种 将 初始 符 转 化 为 最 终 串 的 过 程 称 为 一 次 “生成 ”production)。 上 面 的 两 个 “生成 ”都 属于 用 文法 G 
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产生 的 语言 CGO) 。 实 际 上 ,由 习题 38 可 以 看 出 该 文法 生成 的 语言 是 L(G) 二 {a"b"e" |n 之 1}。 
一 个 复杂 得 多 的 文法 当然 要 属 基 语 了 。 所 谓 的 “字母 表 " 在 这 里 是 指 全 部 的 英文 单词 (大 


WA MAS), A= (the, history, book, sold, over, 1000, copies. =). M PI AS HT = 


{(noun), verb), (noun phrase), (verb phrase?) , (adjective), (adverb), (adverbial phrase>}, 
RIS FE S= (sentence), —~ Pj)” 5 BR Hil 9 SET CK BL EE 
(sentence) 一 (noun phrase) (verb phrase) 

(noun phrase) — (adjective) (noun phrase) 
(verb phrase) — (verb phrase) (adverbial phrase) 

(noun) -> book OR theorem OR ... 

(verb) 一 describes OR buys OR holds OR ... 

(adverb) > over OR ... 


“OR, FIR PRIBMENSRA OT MRASEMES LES MHF. HaHa 
“Squishy green dreams hop heuristically” (My BM Be AY aR E AI BR Ae oh th BA BE) tT HA EGR 
子 集 产 生 。 图 8-12 表示 用 导出 树 表 示 的 生成 步骤 ,其 中 根 符号 显示 在 图 的 最 顶部 ,而 最 下 方 
的 是 终止 符 。 





图 8-12 这 棵 导出 树 <sentence> 
显示 了 部 分 英文 文法 ， 
它 可 以 从 根 符号 (这 里 <noun phrase> <verb phrase> 
是 (sentence)) 转 化 成 一 
个 英文 句子 或 者 说 是 Z , pp 
— 、 <aajective> <noun phrase> <verv> <adverbial pnrase> 
元 素 的 串 ( 这 里 是 英文 | 
ia a 
单词 的 串 ), 叶子 是 从 rhe JIN sola 
左 向 右 读 出 的 <adjective> <noun phrase> <preposition> <noun phrase> 
history over 
<noun> <adjective> <noun phrase> 
book 1000 


<noun> 


copies 


8.6.2 串 文法 的 类 型 

根据 产生 式 的 规则 结构 的 类 型 不 同 , 可 将 文法 主要 分 为 4 种 。 正 如 以 上 所 看 到 的 , 重 写 规 
MEA ap 的 形式 ,其 中 a 和 和 8 都 是 用 中 间 符 号 和 终止 符号 构成 的 捉 ，。 

0 型 文法 (自由 文法 或 无 约束 文法 ) 自由 文法 对 重 写 规则 ,以 及 可 产生 的 串 的 结构 无 任何 
限制 。 原 则 上 说 ,可 以 表达 任意 的 规则 集合 。 这 种 通用 性 的 代价 是 它 的 学 习 时 间 可 能 不 现实 的 
长 。 可 以 说 ,0 型 文法 对 产生 的 句子 不 提供 任何 约束 信息 ,所 以 ,在 模式 识别 当中 没有 任何 作用 。 

1 型 文法 (上 下 文 有 关 文 法 ) ”如 果 产 生 式 具有 如 下 形式 : 

al pax 
其 中 gc 和 8 是 由 中 间 符 号 和 终止 符号 构成 的 串 , 工 是 一 中 间 符 号 ,z 是 非 空 的 中 间 符 号 或 终止 
符号 。 换 句 话说, 如果 了 工 的 左边 是 ,并且 其 右边 是 8, 则 工 能 改写 为 工 。 

2 型 文法 (上 下 文 无 关 文 法 ) 如果 产生 式 的 形式 为 六 =z, 其 中 了 工 是 一 个 中 间 符 号 ,z 是 终 
止 符 号 或 中 间 符 号 。 即 允许 1 被 重 写 为 zx, 而 不 像 1 型 文法 那样 与 1 的 上 下 文 有 关 。 


424 





342 | se £8 


3 型 文法 (有 限 状态 文法 或 正则 文法 ) 文法 是 正则 的 ,如 果 其 每 条 产生 式 都 具有 
a>zB 或 az 

的 形式 ,其 中 a 和 8 均 由 中 间 符 号 构成 ,z 是 一 非 空 终止 符号 。 本 文法 也 称 为 A RRA HE”, 
是 因为 它 能 用 一 有 限 状态 机 (finite state mahine) 来 产生 (可 从 图 8-16 中 看 出 )。 

利用 i 型 文法 产生 的 语言 称 为 i 型 语言 , 记 做 L(i)。 还 可 看 到 i 型 文法 包含 了 所 有 的 i 十 1 
型 文法 。 这 形成 了 不 同文 法 类 型 的 严格 的 层次 关系 ” 。 

任何 上 下 文 无 关 文 法 都 可 以 转化 为 所 谓 的 Chomsky 范式 CN), 它 的 形式 为 

A—>BC 和 A->z 

其 中 A,B,C 都 是 中 间 符 号 ( 取 自 了 了) ,z 是 一 个 终止 符号 。 对 任何 一 个 上 下 文 无 关 文 法 GMA 
一 个 对 应 的 G 具 有 CNF 形式 ,使 得 L(G) = L(G) (参见 习题 36) 。 


例 3 数字 读 法 的 文法 
为 了 更 好 地 理解 上 文 , 考 虑 一 个 能 产生 1 一 999999 的 数字 的 英语 读 法 的 文法 。 其 字母 表 
包含 29 个 基本 终止 符号 ， 即 英 语 口语 的 4 三 {one,t uD,** ten, elewn, st uenty, thirty,**， 


ninety, hundred ,thousand,，…}。 中 间 符 号 有 6 个 ,分 别 对 应 六 位 数 、 三 位 数 、 两 位 数 和 表示 十 


几 的 发 音 等 等 ,如 下 所 示 : 
T= idigits6 ,digits3,digits2,digitl ,teens,tys} 
根 符号 对 应 于 一 个 1 一 999999 的 数 。 根 据 英 语 口语 发 音 规 律 所 形成 的 产生 式 规 则 为 


digits6 一 digits3 thousand digits3 
digits6 一 digits3 thousand OR digits3 
digits3 一 digitl hundred digits2 
digits3 一 digit) hundred OR digits2 
digits2 一 teens OR tys OR tys digiti OR digit1 
digit! > one OR two OR ... nine 

teens 一 ten OR eleven OR ... nineteen 

tys 一 twenty OR thirty OR ... OR ninety 


文法 输入 digits6 ,逐步 运用 产生 式 ,直到 生成 最 终 的 字母 表 元 素 , 如 图 所 示 。 因 为 它 含 有 一 条 规 
则 “digits6 一 digits3 thousand” ,所 以 肯定 不 属于 3 型 文法 。 并 且 容 易 验 证 这 是 一 个 2 型 文法 。 


digits6 digits6 
digits3 thousand digits3 digits3 thousand  digits3 
digit] hundred digits2 digits2 thin digit! hundred digits2 
Six tys digit] teens who nine tys digit! 
thirty nine fourteen fifty three 
639014 2953 


这 两 棵 导出 树 说 明文 法 G 是 如 何 产生 639014 和 2953 的 读 法 的 。 最 后 的 终止 符号 串 从 左 至 右 读 出 ， 


O 译 者 注 ; 即 LOCODLC)DL(2DDL63). 
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8.6.3 利用 文法 的 识别 

在 形式 上 ,利用 文法 的 识别 与 模式 识别 的 一 般 方 法 非常 相似 。 假 定 我 们 猜测 某 个 给 定 的 
测试 句子 是 利用 以 下 c 种 不 同 的 文法 之 一 生成 的 。 它 们 是 G1 ,Gs,…,G,, 分 别 可 视 作 不 同 的 
模型 或 类 别 。 句 子 x 的 类 别 标记 将 根据 由 哪 一 个 文法 可 以 产生 它 而 定 , 或 者 等 价 地 说 ,要 测试 
x 属于 哪 一 种 语言 L(G,)，。 

到 目前 为 上 上, 我们 的 工作 都 是 前 向 的 , 即 , 从 根 节 点 开始 产生 一 导出 树 , 直 到 最 终 的 句子 。 
然而 对 识别 来 说 ,必须 采用 相反 的 过 程 。 也 就 是 说 ,给 定 一 特定 的 x, 要 求 发 现 G 中 的 一 个 时 
出 树 , 它 能 推导 出 x。 这 个 过 程 , 称 为 分 析 (parsing), 要 比 前 向 的 导出 树 的 过 程 困 难得 多 。 下 
面 先 讨论 一 种 通用 的 分 析 方 法 ,同时 也 会 简单 提 及 其 他 两 种 。 

“ 自 底 向 上 ”分 析 

“ 自 底 向 上 ”分 析 (bottom-up parsing) 开 始 于 被 测 句 子 x, 试 图 去 化 简 它 ,就 像 根 符号 ( 初 
始 符 ) 表 示 的 那样 。 基 本 的 步骤 是 反 向 运用 产生 式 马 中 的 备 选 导出 式 , 即 发 现 其 右边 推导 出 的 
串 ( 即 规则 的 结论 部 分 ) 与 x 中 的 部 分 串 匹 配 的 重 写 规则 ,然后 用 相应 规则 的 左边 ( 即 规则 的 前 
提 部 分 ) 蔡 换 之 。 这 就 是 所 谓 的 Cocke-Younger-Kasami 算法 (CYK 算法 ) 中 运用 的 方法 ,通过 
“ 目 底 癌 上 “地 填 一 个 "分析 表 ? 来 实现 。 文 法 要 求 表达 为 Chomsky 范式 ,使 得 产生 式 具 有 形式 
4 一 BC。 这 种 文法 虽然 不 能 包含 所 有 的 类 别 ,但 其 适用 范围 很 宽 。 表 中 的 项 是 部 分 有 效 推导 
的 候选 串 。 如 果 表 中 出 现 了 初始 答 S$, 那 么 可 确信 可 以 从 S$ 导出 被 测 句 子 , 于 是 xE L(G) ,在 
下 面 的 算法 中 , 令 zi(i==1,…,n) 表 示 待 分 析 的 串 中 的 终止 符号 。 


算法 4 ( 自 底 向 上 的 分 析 ) 
1 begin initialize G= {A,T,S,P} ,X= Zz 22t 2n 


2 1<—0 

3 do i<-i+1 

4 Vi—{A|A—>z,} 

5 until ;一 7 

6 j=] 

7 do j<-j+1 

8 i1<—0 

9 do ;< :十 ] 

10 Vi<¢ 

11 k=<-0 

12 do k<k+1 

13 VeV; U{A|A>BCEP, BEVA CEV? 
14 until k=j— l 

15 until :一 2 一 /十 

16 until 7 一 7 

17 if SEV, then 打印 “x 的 分 析 在 G 中 获得 成 功 ” 
18 return 

19 end 


利用 下 一 个 简单 的 抽象 例子 ,来 考虑 算法 4 中 的 操作 。 文 法 G 有 两 个 终止 符号 和 3 个 中 
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间 符 号 :A 二 {a,b) ,T= 二 1A,B,C}, 根 符号 是 S, 有 4 个 产生 式 规 则 : 
pi: S > ABORBC 


图 8-13 表示 一 个 用 算法 4 对 输入 串 x=“baaba” 生 成 的 分 析 表 。 沿 表 的 最 低 一 行 是 串 中 
的 每 个 字符 z, 。 算 法 的 2~5 行 表 明 ,用 可 能 导出 x 的 字符 的 内 部 符号 填充 第 一 行 (j ==1)。 其 
i=l] M im 的 表 项 ,根据 规则 ps: B—b 可 知 应 该 填 人 B。 其 他 表 项 基于 规则 po 和 p, 
IBA A.C. 


图 8-13 ” 自 底 向 上 分 析 算 法 用 取 自 部 分 有 长 度 为 1 的 种 

效 导出 的 符号 来 填充 分 析 表 。 算法 4 并 不 et 

给 出 图 中 的 连 线 , 但 如 果 顺 着 它 从 根 符号 向 

下 读 时 ,可 验证 确定 存在 一 个 有 效 导出 pues 
长 度 为 4 的 申 
+e BR OWS A eB 
BRA x 





l 2 3 4 5 
ie 


算法 的 核心 计算 在 第 13 行 , 它 用 那些 能 产生 其 下 面 行 中 的 串 的 片段 的 符号 来 填充 整个 
表 , 因 此 ,这 也 必须 是 有 效 导 出 的 一 部 分 (如 果 的 确 发 现 一 个 的 话 )。 例 如 , 表 项 i=1,j=2 中 
必须 包含 任何 能 产生 其 下 面 的 行 中 的 片断 的 符号 。 这 样 根 据 规则 pi :S 一 BC, 它 就 必须 含有 
S。 又 根据 规则 p; :4A-~~BA4, 它 同样 应 含有 A4A。 依 据 算 法 最 内 层 的 循环 上 (第 12~14 FH), BB 
找 能 够 扩展 一 定 范围 的 规则 的 最 左边 ,例如 , 表 项 i=3,j=3 应 包含 B, 因 为 根据 k= 二 2 和 规则 
p; ,我 们 有 B 一 CC( 参 见 图 8-14), 

图 8-14 不 出 了 在 填充 削 析 表 中 某 特定 表 项 单元 的 过 程 。 序 列 垂直 向 上 扫描 直到 待 填 的 
单元 ,同时 也 有 一 个 从 该 单元 沿 对 角 线 向 下 扫描 的 操作 。 这 确保 了 不 漏 过 从 顶层 节点 开始 的 
任何 有 效 导出 路 径 (path)。 如 果 顶 层 节 点 已 包含 根 符号 S, 则 说 明 被 测 串 已 经 被 成 功 分 析出 。 
也 就 是 说 ,确实 存在 一 个 有 效 的 产生 过 程 能 从 S 到 达 串 x, 





图 8-14 算法 4 的 最 内 层 循环 要 用 其 右边 项 对 应 于 表 中 加 阴影 单元 的 规则 的 最 左边 符号 来 填充 
单元 V; 。 随 着 上 的 增加 ,单元 要 垂直 向 上 扫 动 ,同时 又 有 一 个 沿 对 角 线 向 下 的 过 程 。 加 阴影 的 单 
元 表示 出 在 导出 中 可 能 的 导出 项 


为 了 理解 该 表 如 何 被 填充 ,首先 考虑 第 一 行 j= 二 1。 表 项 单元 ;一 4,i 一 1, 应 该 填 B, 因 为 根 
据 规则 ps, B 是 惟一 可 能 直接 导出 下 面 的 b 的 中 间 符 号 。 同 样 i=1,;==1 也 是 如 此 。 其 他 3 
个 单元 应 包含 A 和 C ,因为 它们 是 仅 有 的 能 导出 a 的 中 间 符 号 。 图 8-15 的 导出 树 验 证 了 上 述 
分 析 是 正确 的 。 
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采用 算法 4 的 自 底 向 上 分 析 的 计算 复杂 度 相 当 高 。 第 13 行 最 内 层 的 循环 要 执行 n 次 (或 
稍 少 一 些 ) ,第 7 行 和 第 9 行 有 OO 次 ,这 也 是 空间 复杂 度 的 量 级 。 总 的 时 间 复 杂 度 为 
Oln’), 


图 8-15 “babaa” 的 有 效 导 出 作为 基 9 
于 文法 G 的 自 底 向 上 分 析 算 法 的 结 
果 , 可 以 从 图 8-13 中 读 出 Al B 
B 4 C C 
b a4 Ba 
a b 


“ 自 顶 向 下 ”分析 及 其 他 分 析 方 法 

顾名思义 ,“ 自 项 癌 下 ”分 析 (top-down parsing) 从 根 节 点 开始 ,持续 运用 刀 中 的 产生 式 , 直 
到 能 导出 被 测 句子 x。 但 是 因为 只 进行 一 次 推导 就 得 到 句子 x 的 情况 很 少见 。 separa 
些 准 则 来 指导 重 写 规则 的 选用 。 这 种 准则 可 能 先 从 甸子 中 第 一 个 (最 左边 ) 字 符 开始 (比如 , 序 
找 能 产生 该 字符 的 最 简短 的 重 写 规则 集 ) ,然后 递归 地 扩展 产生 式 以 导出 后 继 的 字符 ， Aen 
nF PRIER EE A ie Ste FF o 

前 面 讲述 的 “ 自 底 向 上 ”和 “ 自 项 向 下 ”分 析 算 法 都 是 很 一 般 的 算法 形式 ,还 有 其 他 一 些 在 
空间 和 时 间 复 杂 度 上 略 有 不 同 的 算法 。 很 多 分 析 方 法 基于 产生 文法 自身 的 内 在 模型 。 一 种 流 
行 的 模型 就 是 有 限 状 态 机 。 这 种 机 器 包含 若干 节点 和 转移 链 。 其 中 每 个 节点 都 可 以 发 出 一 个 
符号 ,如 图 8-16 所 示 。 





- mouse barn 
owa oma LO“ 二 
seen under farmer 


图 8-16 一 种 有 限 状 态 机 ,其 节点 可 激发 出 终止 符 (“the”,“mouse” 等 ), 并 且 转 移 到 其 他 节点 。 这 
种 操作 能 够 用 文法 来 描述 。 例 如 ,该 机 器 的 重 写 规则 包括 :5 ~theA,A—~mouseB OR cowB, 等 等 。 
上 述 规 则 清楚 地 表明 该 有 限 状态 机 可 以 实现 3 型 文法 。 最 终 的 内 部 节点 (有 阴影 ) 可 以 导向 空 符 
号 6。 这 样 的 有 限 状 态 机 有 时 是 有 利 的 ,因为 能 够 清楚 地 解释 和 学 习 带 有 节点 和 链接 的 方法 。 但 
在 8.7 市 我 们 会 看 到 进行 文法 学 习 的 更 一 般 方法 ,那些 方法 适用 于 更 广泛 的 文法 模型 。 


8.7 文法 推断 


在 许多 应 用 中 ,文法 都 是 手工 设计 而 成 的 。 然 而 ,学 习 在 模式 识别 的 研究 中 起 着 极为 重要 
的 作用 ,因此 期 望 从 一 些 样本 句子 中 学 习 ( 出 ) 产 生 它 们 的 文法 是 很 自然 的 想法 。 当 试图 尝试 
一 般 的 学 习 方法 时 ,很 快 就 陷 人 了 困难 ,其 中 根本 的 原因 在 于 基于 文法 的 方法 和 基于 统计 的 方 
法 所 提出 的 问题 领域 是 如 此 的 不 同 。 首 先 , 对 大 多 数 语言 来 说 ,存在 有 许多 种 (经 常 有 无 穷 多 
种 ) 文 法 可 以 产生 它 。 如 果 两 个 文法 ,Gl 和 G: ,都 生成 同样 的 语言 (并 且 没 有 其 他 句子 ) ,那么 
这 种 歧义 将 导致 识别 没有 结果 。 因 为 学 习 总 是 基于 一 个 有 限 的 训练 样本 集合 ,所 以 这 里 的 文 77 
法 学 习 癌 题 是 大约 束 的 , 即 与 训练 样本 相 容 的 文法 数目 有 无 穷 个 ,因此 无 法 确定 惟一 的 源 文 a | 
法 ， 429| 





| 
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有 两 种 主要 技术 可 以 使 从 实例 中 推断 文法 的 问题 变 得 可 以 解决 。 第 一 种 技术 同时 采用 了 
正 例 和 反例 。 也 就 是 说 ,不 仅 采 用 了 已 知 可 以 从 文法 中 导出 的 正 的 句子 集合 D+ ,也 采用 了 已 
知 不 可 能 从 文法 中 导出 的 反 的 句子 集合 D- 。 在 多 类 分 类 问题 中 ,从 G 中 取得 正 例 ,而 从 所 有 
的 G; jAi 中 取得 反例 的 做 法 是 很 平常 的 。 但 即使 正 反 例 都 已 得 到 ,一 个 有 限 的 训练 集 也 很 
少 能 确定 惟一 的 文法 。 这 时 ,可 采用 第 二 种 技术 , 即 , 对 问题 施加 前 提 条 件 和 约束 。 举 一 个 很 
平常 的 例子 ,我 们 要 求 候选 文法 的 字母 表 只 能 由 训练 句子 中 出 现 的 符号 组 成 。 并 且 要 求 产 生 
式 中 的 每 一 条 规则 都 要 被 使 用 。 我 们 寻求 能 够 解释 训练 样本 的 “最 简单 ”的 文法 。 这 里 “简单 ” 
是 指 重 写 规则 的 个 数 最 少 , 或 其 长 度 的 和 最 短 ,或 其 他 一 些 自 然 的 判 据 。 这 也 是 Occam 闲 刀 原 
理 的 一 个 版 本 , 即 足 够 解释 数据 的 最 简单 的 解释 常常 是 最 好 的 解释 (参见 第 9 章 )。 从 厂 义 的 
观点 看 ,学 习 过 程 是 如 下 进行 的 。 首 先 猜 测 一 个 初始 文法 G 。 指 定 文法 的 类 型 (1 型 .2 型 和 3 
型 ) ,从 而 对 候选 规则 的 形式 加 以 约束 ,常常 是 有 利 的 。 当 缺少 其 他 先 验 信息 时 ,常规 的 做 法 是 
使 得 G" 尽 可 能 简单 。 然 后 再 根据 需要 逐渐 扩展 产生 式 规 则 集 。 逐 个 从 D+ 中 取出 正 例 样 本 
xio WR x? 不 能 用 现 有 文法 分 析出 , 则 新 提出 的 规则 将 加 入 马 中 。 一 条 新 规则 只 有 当 它 不 
仅 能 成 功 分 析出 所 有 正 例 xz ,并 且 不 能 分 析出 任何 一 个 反例 时 ,才能 被 接受 。 

详细 的 文法 推断 算法 给 出 如 下 : 


算法 5 (文法 推断 ) (概述 )) 
1 begin initialize D+ ,D- ,Cr 
n> <{D+|(Dt PREP) 
S<S 
4<-D+ 中 的 实例 数 中 的 字符 集 





2 

3 

4 

D 1—0 

6 do i<-i+1 

7 MK D+ ik xi 

8 if x? 不 能 由 G 分 析 

9 then do 提出 对 人 的 新 产生 式 和 对 了 的 新 变量 
10 接受 修改 ,如 果 G 分 析 xt 而 在 D- 中 没有 串 
ll until i 二 nT 

12 删除 多 余 的 产生 式 

13 return G<(4,75S>P) 

14 end | 





非 形式 地 说 ,算法 5 持续 加 入 新 的 从 D+ 中 连续 选择 的 句子 所 要 求 的 重 写 规则 ,只 要 该 重 
BAMA RITD- 的 任何 一 句子 被 分 析 。 算 法 第 9 行 并 没有 表明 如 何 选择 特定 的 规则 ,但 在 实 
践 中 ,规则 常 取 自 了 预先 定义 的 一 个 集合 (最 简单 的 先 取 ) ,或 者 是 根据 有 关 产 生 句 子 的 内 在 模型 
的 专门 知识 。 


例 4 文法 推断 

考虑 从 下 述 正 例 和 反例 中 推断 文法 G 的 问题 ;D+ = (a,aaa,aaab,aab},D- = (ab,abc,，, 
abb,aabb}。 显 然 ,字母 表 是 4 二 {a,b}。 我 们 只 给 G 一 个 内 部 符号 ,以 及 一 个 最 简单 的 规则 
P={S-A}. 
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是 :ab ED- 











上 表 显 示 了 算法 的 过 程 。 第 一 个 正 例 a, 需 要 一 个 重 写 规 则 Aa, X RANE D- 中 任 
何 一 个 句子 ,因而 被 接受 。 当 ;一 3 时 ,新 提出 的 规则 Aab 虽然 允许 导出 xs ,但 因为 它 也 能 
导出 DD- 的 一 个 句子 所 以 被 拒绝 。 另 一 个 提出 的 规则 ,A 一 aab 被 接受 。 推 断 出 的 文法 共有 4 
条 规则 , 示 于 表 的 第 4 部 分 。 


上 述 方法 的 描述 相当 一 般 。 通 过 对 候选 重 写 规则 的 类 型 施加 更 多 限制 ,比如 根据 设计 者 


关于 文法 类 型 的 推定 ,可 以 得 到 更 专门 化 的 方法 。 对 于 3 型 文法 ,可 以 考虑 用 有 限 状态 机 的 方 
式 来 学 习 , 那 样 ,学 习 过 程 就 包括 添加 新 节点 和 转移 链 ( 可 参考 具体 文献 )。 


“8.8 基于 规则 的 方法 


如 果 类 别 是 用 实体 间 的 一 般 关 系 所 刻 划 的 ,而 非 一 些 具体 示例 ,那么 基于 规则 来 设计 分 类 
器 的 想法 将 很 吸引 人 。 基 于 规则 的 方法 是 人 工 智 能 算法 不 可 或 缺 的 一 部 分 。 但 是 由 于 在 模式 
识别 中 却 应 用 的 不 多 ,所 以 我 们 将 这 里 将 给 出 一 个 简短 的 绽 述 ,并 且 主 要 集中 讨论 一 类 用 途 广 
泛 的 可 以 学 习 一 般 关 系 的 if-then 规则 。 
一 个 很 简单 的 if-then 规则 的 例子 如 下 : 
IF Swims (x) AND HasScales(x) THEN Fish(x) 


4R AEKA WRTA xR RAKE FARA BAG EE. 

规则 的 最 大 优点 是 其 容易 被 解释 ,所 以 可 用 于 数据 库 的 应 用 里 ,在 都 里 ,信息 常 被 编 公 成 
实体 间 的 关系 。 这 种 方法 的 缺点 之 一 是 缺少 自然 的 概率 的 概念 ,因而 , 当 问 题 中 存在 较 大 噪声 
或 很 大 的 贝 叶 斯 误差 时 ,规则 的 运用 多 少 有 些 困难 ， 

一 个 “谓词 ?(predicate), 比如 Man(+), HasTeeth(+), Æ AreMarried(。，,*) 等 等 ,是 一 个 
能 输出 True 或 False 的 逻辑 测试 ?%。 谓 词 可 用 于 各 种 问题 ,无 论 其 数据 是 数值 性 的 、 非 数值 
的 .语言 学 的 、. 串 或 其 他 的 广义 类 型 。 自 然 地 ,谓词 的 选择 及 其 求 值 强烈 的 依赖 于 具体 问题 。 
在 实践 中 , 这 是 一 个 比 规则 的 学 习 更 为 困难 的 任务 。 例 如 , 下 图 8-17 示 出 了 利用 规则 对 拱 形 


O ”我 们 将 忽略 谓词 不 确定 的 情况 。 
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结构 分 类 的 例子 。 这 里 的 规则 应 当 涉 及 Touch(*,…) 或 Supports(，,*,*) 等 谓词 ,分 别 表明 是 否 


两 个 块 碰 触 (touch) .或 者 是 否 有 两 个 块 支持 (support) 起 第 三 个 。 根 据 场 景 的 像素 图 像 对 上 
述 谓词 求 值 是 计算 机 视觉 中 一 个 非常 困难 的 任务 。 

主要 有 两 种 if-then 规则 :命题 逻辑 (无 变 元 ) 和 一 阶 人 逻辑 。 命 题 人 逻辑 规则 用 来 陈述 某 个 特 
定 的 事件 。 比 如 

IF Male(Bill) AND IsMarried(Bill) THEN IsHusband (Bill) 

其 中 Bill 是 某 一 特定 的 原子 项 。 因 为 其 属性 已 经 固定 的 ,所 以 Bill 属于 一 个 (逻辑 ?常量 。 命 
题 逻 辑 的 缺点 在 于 它 并 未 提供 对 很 多 事件 间 的 一 般 关 系 提供 一 个 通用 的 表达 方法 。 例 如 , 即 
使 我 们 知道 Mate(Edward) 和 IsMarried (Edward) 都 返回 True, 上述 命 题 规则 也 无 法 告知 我 


们 Edward 也 是 一 位 丈夫 ,因为 那 条 规则 只 对 特定 的 常量 Bill 成 立 。 





i 
人 
h, 
i. 
1 
四 


图 8-17 利用 式 (11) 的 规则 可 以 将 左边 的 的 结构 分 类 为 “ 拱 形 ”而 右边 的 两 个 不 是 。 在 实践 中 ， 

对 谓词 本 身 的 求 值 才 是 最 困难 的 。 例 如 Touch(Cx,y) 和 Supports(x. y, z) 

这 个 缺点 可 以 在 “一 阶 逻 辑 " 中 得 到 克服 ,一 阶 逻 辑 ? 就 是 指 含 有 变 元 的 谓词 逻辑 。 比 如 

IF Eats(x,y) AND HasFlesh(x) THEN Carnivore (y) 
这 里 x 和 y 都 是 变 元 。 这 条 规则 表明 , 任 给 x 和 y, 如 果 y 吃 (eat)x, 并 且 x AA Wy 是 食肉 
动物 。 很 明显 这 是 对 许 许多 多 事例 的 一 个 有 力 的 概括 一 一 一 阶 逻 辑 规则 的 表达 能 力 比 传统 的 
命题 逻辑 要 强 的 多 。 其 能 力也 可 以 从 下 述 规则 中 看 出 : 
IF Male(x) AND IsMarried(x,y) THEN IsHusband (x) 





IF Parent(x,y) AND Parent (y,z) THEN GrandParent (x,z) 
以 及 
IF Spouse(x,y) THEN Spouse(y,x) 
一 阶 逻 辑 规则 中 也 允许 代入 常量 ,例如 ， 
IF Eats (Mouse ,Cat) AND HasFlesh(Mouse) THEN Carnivore (Cat) 
其 中 Mouse 和 Cat 都 是 逻辑 常量 。 
If-then 规则 中 同样 可 以 艇 入 能 返回 数值 的 淆 数 ,比如 下 面 的 例子 : 
_IF Male(x) AND (Age(x) < 16) THEN Boy (x) 
X E , Age(x) iE — S REIR [El ER BY RA, M Ze HA A R CAA ge (x) <16) 7j i8 El True 或 False, 
上 述 规 则 表明 “一 个 男性 ,如 果 其 年 龄 小 于 16 岁 , 则 他 是 个 男孩 ”。 假 如 我 们 用 的 是 判定 树 或 
其 他 什么 统计 技术 ,即使 给 大 量 的 样本 数据 ,也 很 难 完美 的 学 到 这 条 精辟 的 规则 。 怎 样 用 给 定 
一 个 一 阶 谓词 逻辑 规则 集 进 行 模式 分 类 的 方法 已 经 很 清楚 了 :只 需要 对 输入 的 未 知 模式 ,代入 
规则 进行 求 值 即 可 。 于 是 考虑 如 下 的 很 长 的 规则 : 
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IF IsBlock(x) AND IsBlock(y) AND IsBlock(z) 
AND Touch(x,y) AND Touch(x,z) AND NotTouch(y,z) (11) 
AND Supports(x,y,z) THEN Arch(x,y,z) 


其 中 Supports(x,y,z) 表 示 x 被 y 和 z 支 持 着 。 我 们 再 次 强调 ,设计 一 个 能 对 IsBlock(+) , Sup- 
portC(*,，,*) 求 值 的 计算 机 视觉 算法 十 分 困难 。 对 此 我 们 惟一 能 说 的 是 :设计 这 些 算法 部 件 的 
工作 往往 代表 了 整个 分 类 器 系统 设计 工作 量 中 最 大 的 部 分 。 昌 然 这 样 , 但 是 一 旦 获得 了 上 述 
部 分 的 可 靠 算 法 ,就 可 以 使 用 规则 将 简单 的 结构 分 类 成 “ 拱 形 ”或 “ 非 拱 形 ”( 图 8-17). 
规则 的 学 习 

现在 我 们 很 快 地 转向 这 种 if-then 规则 的 学 习 问 题 。 前 面 我 们 已 经 看 到 几 种 学 习 规 则 的 
方法 。 例 如 ,可 以 通过 CART ID3、C4. 5 等 算法 训练 一 棵 判定 树 , 然 后 简化 这 棵 树 , 并 且 从 中 
以 提取 规则 (8.4 节 )。 当 数据 是 基于 文法 产生 的 时 ,我 们 可 以 用 8.7 节 的 方法 来 推断 出 特定 
的 文法 规则 。 而 下 述 学 习 方 法 区 别 于 其 他 算法 的 的 一 个 关键 特征 在 于 它 可 以 学 习 变 元 的 一 阶 
谓词 规则 。 与 文法 推 烦 一 样 的 是 ,该 方法 也 基于 一 系列 的 正 例 和 反例 (D+ .D- ) 来 学 习 。 在 学 

一 条 规则 时 ,不 断 迭 代 的 去 掉 那 些 可 以 被 解释 的 样本 。 这 种 钙 称 为 " 序 贯 覆盖 "的 学 习 算法 

最 终 将 推导 出 可 “覆盖 ?所 有 训练 样本 的 逻辑 析 取 集 。 学 习 结 束 后 ,通常 还 要 利用 标准 的 逻辑 
处 理工 具 来 简化 和 输出 结 有 果 逻 辑 规则 。 

设计 者 首先 要 根据 问题 领域 的 先 验 知识 来 指定 所 需 的 谓词 及 函数 。 算 法 先 从 运用 上 述 谓 
词 和 函数 的 最 一 般 的 规则 开始 考虑 ,试图 去 发 现 “ 最 好 ”的 简单 规则 。 这 里 的 “最 好 ”意味 着 这 
条 规则 应 该 解释 尽 可 能 多 的 训练 样本 。 算 法 然后 搜索 规则 的 所 有 求 精 , 同 样 选择 其 中 最 好 的 
结果 。 上 述 过 程 迭代 执行 直到 无 法 进一步 求 精 ,或 者 能 解释 的 项 数 已 达到 最 大 为 止 。 基 于 此 ， 
一 条 (可 能 有 些 复 杂 的 )if-then 规则 ,就 被 "学 习 ” 了 (图 8-18)。 序 贯 覆 盖 算 法 迭代 执行 上 述 过 
程 ,就 可 以 得 到 一 个 产生 式 规 则 集合 。 


IE 
THEN Fish(x)=T 


IF HasHair (x) IF (Width(x)>2m) JF Swits (x IF Runs (x iF HasEyes (x) 


) (x) 
THEN Fish(x)=F THEN Fish(x)=F THEN Fish(x)=T THEN Fish(x)=F THEN Fish(x)=T 


IF Swims (x) IF Swims (x) iF Swims (x) IF x) iF Swims (x 


LaysEggs (x) uns (x) HasHair {x) ca s(x) Weight (x) >9kg) 
THEN Fis (x) =T THEN Fish(x)=F THEN Fish (x) =F THEN Fish(x)=T THEN Fish(x)=F 


iF SWims (x) IF Swims (x) iF Swims (x) 


HasScales (x) Hasscales (x) HasScales (x) 
HasGills(x) HasEyes (x) (Length (x) >5m) 
THEN Fish (x) =T THEN BY eR Ie) =T THEN Fish(x)=F 


图 8-18 ”在 序 贯 覆 盖 算 法 中 ,候选 的 规则 通过 一 系列 求 精 过 程 来 搜索 。 首 先 发 现 那些 “最 好 ”的 单个 条 

件 谓词 ,所 谓 “ 最 好 ”是 指 可 以 解释 最 多 的 数据 。 然 后 添加 其 他 谓词 ,选择 最 好 的 复合 规则 ,如 此 继续 

另 一 个 通用 的 方法 首先 搜索 所 有 的 只 有 单一 属性 的 规则 ,然后 搜索 所 有 的 含有 两 个 谓词 
的 单个 逻辑 合 取 式 ,再 就 是 多 个 逻辑 合 取 式 , 以 此 类 推 。 注 意 到 这 个 算法 的 “ 贪 焚 性 ”, 因 而 结 
果 并 非 最 优 。 也 就 是 说 ,未 必 生 成 最 紧凑 的 规则 集 。 
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本 章 小 结 


非 度量 数据 由 语义 属性 的 列表 构成 ~ 这 种 列表 可 以 是 有 序 ( 如 串 ) 或 者 无 序 的 。CART、 
ID3 和 C4. 5 等 基于 树 的 方法 ,根据 回答 一 系列 问题 (经 常 是 二 值 的 ) 来 进行 分 类 。 设 计 者 选择 
问题 的 形式 ,并 从 根 结 点 开始 ,将 节点 分 支 , 使 其 表达 的 “纯度 ”增加 ,进而 生长 起 一 棵 树 。 业 已 
展 了 多 种 可 选用 的 不 纯度 函数 指标 ,比如 “ 误 分 类 不 纯度 ”“ 方 差 不 纯 度 ” 及 “Gini 不 纯度 ”等 。 
然而 , 炉 不 纯度 的 应 用 范围 最 广 。 为 避免 “过 拟 合 ” 以 及 提高 “推广 能 力 ”, 可 采用 分 支 停止 技术 
(声明 一 个 节点 称 为 叶 节 点 ,不 纯度 接近 零 ) ,或 者 对 树 进行 剪 校 处 理 以 获得 不 纯度 最 小 化 的 叶 
广 氮 。 树 分 类 天 十 分 灵活 ,适用 于 很 多 种 问题 领域 ,包括 有 度量 数据 .无 度量 数据 或 二 者 的 组 


Am 
Ao 


当 要 求 对 有 非 数 值 符号 组 成 的 串 进行 比较 时 ,我 们 采用 了 编辑 距离 , 它 是 一 种 测量 从 一 个 
串 转 化 到 为 一 个 所 需 的 必要 的 基本 操作 次 数 ( 包 括 插 入 、 删 除 和 交换 )。 虽 然 一 般 的 编辑 距离 
并 非 真 正 意 义 的 度量 ,但 是 它 可 用 于 最 近邻 串 分 类 。 串 匹配 算法 用 于 检查 一 个 被 测 串 是 否 在 
一 个 长 文本 中 出 现 。 基 本 串 匹 配 算法 所 要 求 的 完美 匹配 的 要 求 也 可 以 被 放松 ,比如 用 “容错 串 
匹配 "或 “有 通配符 的 串 匹配 ?。 这 些 基 本 的 串 和 模式 匹配 算法 都 很 简单 且 直 接 ; 但 若 用 到 大 规 
模 的 问题 上 还 需 计 算 效 率 更 高 的 算法 。 

基于 文法 的 方法 假定 串 是 由 某 种 特定 的 规则 产生 的 。 这 类 规则 可 以 用 文法 表达 。 一 个 文 
法 G 由 一 个 字母 表 、 中 间 符 号 一 个 初始 符号 (或 根 符号 ) 以 及 最 为 关键 的 重 写 规 则 集 ( 或 “ 产 
生 式 ” 集 ) 组 成 。4 种 不 同类 型 的 文法 目 由 文法 .上 下 文 有 关 文 法 、 上 下 文 无 关 文 法 及 正则 
文法 一 一 对 符号 转换 的 性 质 作 了 不 同 的 假设 “分析” 的 作用 是 输入 一 个 串 x, 判 断 它 是 否 属 
于 由 文法 G 产生 的 语言 ,如 果 是 , 则 要 导出 它 。 基 于 文法 的 方法 最 适合 高 度 结构 化 的 场合 , 打 
别 是 具有 层次 结构 的 问题 。 文 法 推断 通常 用 很 多 正 例 和 反例 的 样本 串 ( 即 可 由 文法 G 产生 
的 ,以 及 不 能 由 文法 G 产生 的 ) 来 推断 出 产生 式 规则 集 。 

基于 规则 的 系统 采用 命题 逻辑 (无 变 元 ) 或 者 一 阶 谓词 逻辑 来 表达 模式 类 别 。 广 义 地 说 ， 
规则 可 以 通过 连续 运用 非常 复杂 的 复合 规则 ,来 " 序 贯 覆盖 ?训练 样本 集 的 方法 来 学 习 。 


文献 和 历史 评述 


有 关 判 定 树 的 工作 大 多 基于 连续 数值 特征 ,尽管 它 的 一 个 关键 特性 就 是 它 同 样 适合 离散 
的 语义 特征 。 树 分 类 器 的 许多 基础 都 来 自 对 概念 学 习 系 统 (Concept Learning System, CLS) 
的 研究 (文献 L42]) ,但 有 关 CART 的 一 本 重要 的 书 [10j] 为 它 提供 了 坚实 的 统计 基础 ,并 且 重 
新 唤醒 了 它 的 兴趣 。Quinlan 是 树 分 类 器 的 先驱 和 倡导 者 ,是 他 提出 了 ID3[66]、C4. 5[69j] 和 
用 MDL 描述 来 前 枝 [56,71]j。 一 个 好 的 综述 可 参考 文献 L61] ,文献 L11] 给 出 了 多 元 判定 树 方 
法 的 比较 。 基 于 概率 的 分 支 和 剪 枝 判 据 的 讨论 可 参考 [53], 而 基于 信息 度量 的 做 法 可 以 从 
[52] RRB), Gini 指标 最 早出 现在 类 别 数据 的 方差 分 析 中 [47]。 文 献 [85] 探 索 了 判定 树 的 渐 
增 式 或 在 线 学 习 算 法 。 有 关 树 中 变 元 丢失 的 问题 请 参考 L10] 和 [67j], 其 中 提出 了 更 为 普遍 的 
算法 。 文 献 L[78] 还 提供 了 一 种 不 寻常 的 并 行 “ 神 经 ?” 树 搜索 算法 。 

编辑 距离 最 早出 现在 70 年 代 [64]。Wagner 和 Fischer 在 一 篇 关键 论文 中 提出 了 基本 算 
法 ,并且 指 出 其 最 优 性 [88j。 数 字 信 息 ( 特 别 是 各 种 语言 的 电子 文本 ) 的 激增 ,引起 了 关于 串 匹 
配 及 相关 处 理 的 研究 工作 。 一 个 优秀 的 回顾 可 参考 [5] 和 另外 两 本 讲述 全 面 的 书籍 L23] 和 
[82]。 有 关 串 算法 的 计算 复杂 度 可 参见 [21, 第 34 章 ]。 文 献 [9] 提 出 了 算法 2 的 一 个 快速 实 











非 度量 方法 m 35] 





现 , 有 关 它 的 复杂 度 和 加 速 比 及 改进 在 [4,18,24,35,40] 和 [83] 中 被 讨论 。 人 允许 进行 块 一 级 变 
换 的 半 编 辑 距离 在 文献 L48] 中 讨论 。 一 些 复杂 的 串 操 作 一 一 比如 二 维 串 匹配 ,最 大 公共 子 串 
及 图 匹配 在 模式 识别 中 也 有 所 应 用 。[L26] 讨 论 了 将 统计 方法 用 于 串 。 有 限 状 态 自动 机 在 
串 匹 配 的 很 多 问题 中 都 获得 应 用 [23 ,第 7 章 ], 另 外 也 在 时 间 序 列 预测 及 转换 (例如 ,将 字 
符 式 转换 成 二 进 制 表达 ) 中 找到 应 用 [43]。 串 匹配 技术 已 应 用 到 DNA 序列 识别 和 文本 识别 ， 
并 且 成 为 涉及 大 规模 文本 数据 库 应 用 中 的 模式 识别 和 模版 匹配 的 基本 技术 [14]。 有 关 串 操作 
的 专用 硬件 的 文献 也 在 不 断 增长 ,其 中 Splash-2 系统 [12] 就 是 一 个 首要 的 范例 。 

关于 文法 的 形式 化 研究 ,包括 文法 的 类 型 ,开始 于 Chomsky[16], 关 于 文法 推断 的 早期 阐 
述 L39, 第 6 章 j 是 本 章 中 许多 讨论 的 起 源 。 基 于 分 析 ( 拉 丁 语 pars orationis 语言 分 解 ) 的 识别 
是 目 动 语言 理解 的 基础 。 许 多 有 关 三 维 形体 识别 的 早期 工作 是 建立 在 描述 角 点 和 边缘 关系 
“ 拱 ”“ 塔 ”等 积木 块 结构 的 复杂 文法 的 基础 上 。 但 很 快 就 发 现 , 这 种 方法 很 脆弱 ,任何 特征 提 
取 的 错误 .遮挡 .甚至 模型 的 轻微 失 配 都 会 使 它 失败 。 因 此 ,基于 文法 的 方法 大 部 分 退出 了 形 
体 识 别 和 场景 分 析 的 领域 L60,25] ,但 对 于 识别 一 些 简单 的 .高 度 结构 化 的 图 形 , 比 如 电气 线 
路 ,简单 的 地 图 ,甚至 中 文 (日 文 的 汉字 ) 等 还 是 应 用 的 很 多 。 文 献 [13,14,32,33,34] 和 [62] 有 
关于 句法 (结构 ) 模 式 识 别 的 基本 思想 的 有 用 的 评述 。 有 关 分 析 的 综述 可 参考 [3] 和 [28]。 文 
献 L59j 有 关于 文法 推断 的 综述 。 分 析 3 型 文法 的 复杂 度 与 串 长 成 线性 正比 关系 ,2 型 的 复杂 
度 是 低 阶 多 项 式 ,1 型 是 指数 复杂 度 等 等 ,对 此 结论 感 兴趣 的 读者 可 参考 [76]。 业 已 存在 大 量 
的 分 析 自 然 语 言 和 语音 的 研究 工作 ,[L75] 是 一 本 优秀 的 人 工 智 能 的 教科 书 , 其 中 对 上 述 专题 给 
了 很 好 的 讨论 和 丰富 的 文献 。 从 例子 中 推断 文法 的 研究 也 有 很 多 ,比如 Crespi-Reghizzi 算法 
(上下文 无 关 )L22]。 如 果 查 询 过 程 可 以 交互 的 实现 ,那么 文法 学 习 过 程 可 以 被 加 速 , 关 于 此 ， 
可 参考 [81]。 

本 章 讲述 的 相应 方法 能 容易 的 推广 到 随机 文法 , 即 规则 上 可 以 附带 一 个 概率 标记 [20]。 
文法 可 以 表明 类 别 的 先 验 概 率 。 例 如 ,语言 C 上 的 全 部 合法 句子 呈现 均匀 分 布 。 当 随机 文法 
发 生变 动 时 ,可 应 用 误差 -校正 分 析 器 L50,84j]。 也 可 以 对 语言 附带 一 种 概率 标记 [8]。 

基于 规则 的 方法 是 专家 系统 的 基础 。 它 们 在 人 工 智 能 的 各 个 分 支 获 得 了 广泛 的 应 用 , 例 
如 规则 .导航 .预测 等 。 但 在 模式 识别 中 的 应 用 相对 要 少 很 多 。 早 期 的 有 影响 系统 包括 DEN- 
DRAL 用 于 从 大 量 光 谱 中 推断 化 学 结构 [29], PROSPECTOR 用 于 找寻 矿产 储藏 [38], 及 
MYCIN 补助 医疗 诊断 [79j。 早 期 的 运用 规则 归纳 的 模式 识别 研究 包括 Michalski 的 [57， 
58j。 图 8-17 RA Winston 的 有 关 学 习 简 单 几何 结构 及 其 关系 的 有 影响 的 工作 [91]。 规 则 的 








学 习 也 可 称 为 基于 归纳 的 逻辑 规划 ,Clark 和 Niblett 在 这 方面 做 出 了 很 多 贡献 ,特别 是 他 们 
提出 的 CN2 规划 算法 [17]。Quinlan, 也 就 是 对 树 分 类 器 的 理论 和 应 用 做 出 巨大 贡献 的 人 ,在 
L68j 中 提出 了 FOIL 算法 ,其 中 采用 了 MDL 判决 来 停止 一 阶 规则 的 学 习 。 有 关 归 纳 逻 辑 的 文 
献 有 |L46] 和 [73]。 关 于 一 般 的 机 器 学 习 的 论著 可 参考 [44][61]。 





8.2 节 

1. 当 测 试 模式 用 判定 树 进行 分 类 时 ,模式 要 经 历 一 系列 的 查询 ,对 应 于 从 根 节点 到 叶子 的 
一 条 路 经 。 证 明 对 于 任何 判定 树 ,都 存在 一 棵 功能 上 等 价 的 树 , 但 其 中 的 节点 对 应 截然 
不 同 的 查询 。 也 就 是 说 ,对 于 任意 一 棵 树 ,证 明 总 可 以 构造 一 棵 功能 等 价 的 树 , 其 中 没 
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有 任何 一 个 模式 两 处 进行 同样 的 查询 。 

8. 3 节 

2. 考虑 非 二 叉 分 类 树 。 

Ca) 证 明 对 任何 一 棵 树 , 树 上 可 能 存在 不 同 的 分 支 率 , 存 在 二 又 树 可 以 实现 同样 的 分 类 功能 。 

(b 考虑 一 棵 只 有 两 层 的 数 ,一 个 根 节 点 和 吾 个 叶 节 点 ,(B2) ,试问 ,如 果 用 二 又 树 
实现 同样 的 功能 ,其 层 树 的 上 限 和 下 限 分 别 是 多 少 ? (用 以 B 为 自 变量 的 函数 表 
示 )。 

Cc) 前 提 如 (b) , 问 其 节点 数目 的 上 限 和 下 限 是 多 少 ? 

. 比较 单调 树 和 复合 树 分 类 器 的 计算 复杂 度 , 它 们 有 同一 训练 样本 集合 。 假 定 每 类 各 有 
n/2 个 样本 ,每 个 样本 有 a 个 属性 ,每 个 属性 有 x 个 可 能 的 离散 值 。 假 定 最 优 的 分 支 均 
匀 划 分 模式 集合 。 

(a) 单调 树 将 有 和 多少 层 ? 复合 树 呢 ? 

(bO 用 给 定 的 变量 , 问 要 找到 最 优 的 分 文 , 单 调 树 的 复杂 度 是 多 少 ? 复合 树 呢 ? 

Co) 比较 这 两 棵 树 总 的 训练 复杂 度 。 

. 这 里 的 任务 是 比较 用 两 种 不 纯度 训练 树 分 类 器 的 计算 复杂 度 。 假 设 分 支 仅仅 依据 一 个 
属性 。 假定 有 C 类 模式 s j s Wy ，,"…; ;每 类 n/c 个 da 维 样本 ,问题 是 : 

Ca) 在 根 节点 处 有 和 多少 种 非 平 凡 的 两 个 超 类 划分 ? 

(b) 在 所 有 上 述 超 类 划分 中 ,寻找 具有 最 小 炉 不 纯度 的 划分 所 需 计 算 复 杂 度 是 多 少 ? 

Cc) 利用 上 述 问题 的 结果 ,估计 在 根 节 点 处 进行 划分 的 复杂 度 。 

(d) 假定 为 简单 起 见 ,每 次 划分 都 得 到 两 个 同等 大 小 的 子 集 ,并 且 每 个 叶子 只 有 一 个 模 
式样 本 。 用 给 出 的 数据 计算 树 的 层 数 。 

(e) 任何 节点 所 代表 的 模式 类 别 数 自然 与 该 节点 的 所 在 的 层次 有 关 , 比 如 , 根 节 点 要 代 
表 所 有 c 个 类 别 ,而 比 叶 子 仅仅 高 一 层 的 节点 只 代表 两 类 (具体 是 哪 两 类 和 特定 的 
节点 有 关 ) ,在 一 些 简化 的 假定 下 , 写 出 节点 的 类 别 数 同 节点 层 数 的 函数 关系 式 。 
(提示 :可 以 用 | x JA a PS BSR A. 1.) | 

H 利用 (e) 的 绪 果 和 模式 的 数目 ,计算 在 工 层 的 计算 复杂 度 。 

(g) 估计 训练 完整 的 树 的 计算 复杂 度 。 

Ch) 假定 ,n= 二 2" ,d= 二 6,c 二 16 ,假定 某 处 理 器 一 次 基本 运算 的 时 间 花 费 是 10-"s, 大 概 
估计 一 下 用 两 种 判 据 分 类 所 需要 的 时 间 。 分 类 一 个 模式 所 花费 的 时 间 是 多 少 ? 

75 BA) FAR a EI RR OY ,可 参考 式 (1) 和 (5) 。 

(a) 经 过 单 次 是 / 否 的 查询 判断 ,所 引起 的 不 纯度 下 降 总 是 比 1 比特 小 。 

(Cb) 对 例 1 中 的 两 棵 树 ,验证 一 下 每 次 分 支 都 引起 不 纯度 下 降 , 但 是 下 降 差 总 是 小 于 1 
比特 。 昌 然 这 样 ,解释 一 下 为 什么 某 个 节点 的 不 纯度 却 可 能 比 后 继 节 点 还 小 。 

Cc) 将 (a) 的 结果 推广 到 任意 分 支 率 的 情况 。 

. 令 Pla) e PCo.) 表 示 二 又 分 类 树 节 点 N 处 的 类 别 概率 ,并 且 有 之 ;*-:P(Cow) 王 1, 假 
E 六 处 的 不 纯度 ;(P(w )，…，,P(ow.)) 是 概率 的 严格 止 图 数 , 也 就 是 说 , 任 给 概率 


ig = i(P*(a),..., P" (we)) 
ip = i(P? (a), ..., P? (w.)) 


CA 


-~ 


| 


Ty 


(12) 


以 及 
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i* (at) = i(a P*(a) + (1 — a) P?(a)), ..., a, P (w) + (1 — a) P?(w,)) 


ABA ,对 于 OSa <1 BD §-14,=1 RIA Li <i. 
Ca) 证 明 对 于 任何 的 分 支 , 我 们 有 Ais 0,4 A Plo, | TL) = Plo, | Tr) = P(e, | 
D,j=1l, c RFS. MMU MFM BAA RR. te ASMA 

Cb) WEHR HA fi RE eR (1) AE) R BK 

Cc) 证 明 Gini ARS AA PRR. 
.说 明正 文中 的 替代 分 支 方法 等 价 于 对 丢失 的 特征 作 了 "信息 最 丰富 ”的 假定 , 试 着 用 数 

学 的 术语 说 明 “ 信 息 最 丰富 ”的 含义 。 
.考虑 一 个 2- 类 分 类 问题 ,采用 如 下 的 训练 模式 ， 


—] 


OO 





(a) FA ABA AE CRC) ) FA BR BY BA PR 。 
Cb) ll FA tay FE BY) ee Be AK A fa 1 A TE E R BS SS Ey 1. VA 18 Be f A e 
辑 表 达 式 (使 用 最 少 的 AND 和 OR). 

9. 证 明 对 一 个 未 剪 梳 的 .全 训练 和 均匀 分 支 率 的 树 进 行 分 类 的 时 间 复 杂 度 是 O(log x) ,其 
中 ?是 训练 样本 的 个 数 。 对 均匀 的 分 支 率 BRS HMR PRT A KR 
(表示 成 BAY RR). 

10. 考虑 2- 类 分 类 问题 中 的 不 纯度 作为 P(ol) 的 函数 关系 。( 当 然 也 隐 含 了 P(w:) 一 1 一 

P(w)) 说 明 最 简单 和 合理 的 多 项 式 形式 的 不 纯度 区 数 与 样本 方差 有 如 下 关系 : 
(a) BAAS BBE Plo, MBH aM AAT At BOWEL RA. 
(b) 在 给 定 的 边界 条 件 i(P(o,) =0) =i(P(w,)=1)=0 下 , 写 出 最 简单 的 二 次 型 形 
式 ,并 说 明 它 符合 icCP(w)P(w,)， 
(c) 假定 所 有 o 类 的 样本 都 赋值 1.0, 而 所 有 w 类 的 样本 都 赋值 0, 在 双 正 态 分 布下 
试 证 明 不 纯度 测量 正比 与 总 体 分 布 的 方差 。 并 解释 之 。 
.说 明 用 代价 抢 阵 入 表 达 的 一 般 代 价 ,如 何其 入 到 " 误 分 类 不 纯度 " 式 (4) 的 计算 中 。 当 
训练 一 棵 多 类 分 类 树 时 , 写 出 其 训练 算法 的 伪 码 程序 。 并 写 出 分 类 伪 码 程序 。 已 知 初 
始 的 4 已 经 设 好 ,训练 样本 为 xX. 

12. 在 本 题 中 ,你 要 在 缺少 大 量 样本 的 前 提 下 创建 一 棵 2- 类 二 叉 分 类 树 。 已 知 PC) 
Pl(ws) 二 1/2,p(riwo)~N(0,1) 和 p(xiw;)~~N(1,2), 并 且 所 有 的 节点 都 有 形式 “Is 
Zz<xz?”,z, 是 阅 值 。 每 棵 二 叉 树 都 很 小 , 即 一 共有 一 个 根 节 点 、 两 个 非 终 端 节 点 和 4 
个 叶 节 点 。 对 下 列 4 个 不 纯度 指标 , 试 给 出 所 有 的 分 支 准 则 。( 即 3 个 非 终 端 节 点 处 
的 z,) 及 最 终 测试 误差 。 如 果 可 能 ,可 以 用 误差 函数 erf(。) 表 示 你 的 结果 。 同 样 , 数 
值 解 也 是 需要 的 。 $39 
Ca) ARAR., 

(b) Gini 不 纯度 。 
(c) 误 分 类 不 纯度 。 


— 
— 








394 z #8 


(d) 有 一 种 基于 Kolmogorov-Smirnov 检验 的 分 支 准则 : 令 单 变量 z 对 每 一 分 支 的 累 
积分 布 是 下 ,(x) ,i 一 1,2, 二 分 支 准则 是 最 大 化 该 累积 分 布 的 差异 , 即 


max |Fi(xs) 一 F(xs)| 


(e) 用 第 2 章 给 出 的 方法 计算 贝 叶 斯 判定 面 及 贝 叶 斯 误差 。 
13. 对 两 个 一 维 柯 西 分 布 , 重 做 (12) 题 ，。 


1 


—.—____._ , j=1,2 
wb; 1 + (y t 


paloi) = 


Et, P(w,) = P(w,) =1/2,4a, =0,6, =1,a,=1,0 一 2( 这 里 只 要 求 数值 解 )。 

14. 推广 属性 丢失 问题 至 多 个 特征 丢失 和 多 个 缺损 模式 的 情况 。 特 别 地 , 写 出 d 维特 征 
中 可 能 丢失 多 个 特征 的 二 叉 分 类 树 的 伪 码 程序 。 

15. 在 生长 一 棵 判定 树 时 ,有 一 个 节点 代表 了 以 下 六 维 二 进 制 模式 。 已 知 候选 判别 是 基于 
单个 特征 值 作 出 的 。 


w] 
110101 
101001 
100001 
101101 
010101 
111001 
100101 
011000 


w2 
011100 
010100 
011010 
010000 
001000 
010100 
111000 
110101 


Ca) 应 该 选择 哪个 特征 进行 分 支 ? 
Cb) 回想 在 停止 分 支 时 采用 的 统计 显著 性 差异 的 方法 。 在 本 例 中 零 假设 是 什么 4 
C) 计算 (a) 中 你 的 判别 的 入 统计 量 。 问 它 是 否 在 0. 01 置 位 水 平 上 存在 显著 差异 ? 
分 支 是 否 该 停止 ? 
(d 当 水 平 设 为 0.05 时 重 做 (c) 。 
16. 考虑 下 面 的 模式 ,其 中 每 一 个 有 4 个 二 进 制 值 的 属性 。 注 意 到 第 一 个 模式 对 两 类 均 相 
同 | 





(a) 手工 创建 一 棵 二 叉 分 类 树 。 训 练 你 的 树 知道 叶子 具有 最 小 的 不 纯度 为 止 。 
(b) 如 果 在 训练 时 ,事先 知道 二 类 的 先 验 概率 不 同 ,而 是 PC) = 2P Co.) GER 
据 ,修改 你 的 训练 方法 ,重新 生成 一 棵 树 。 
8. 4 节 
17. 考虑 一 个 二 叉 分 类 树 ,用 来 分 类 一 个 由 两 部 分 组 成 的 模式 ,其 中 第 一 部 分 是 二 进 制 值 
0 或 1， 而 第 二 部 分 到 全 A~F; 
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w: iA OE OB 1B 1F OD 
w: 0A OC 1C OF OB 1D 


对 根 结 点 进行 分 支 , 试 比较 如 下 方法 。 | 
(a) FUER ADEE ERAR 2- 分 支 ,第 二 部 分 采用 6- 分 支 。 

Cb) 改 用 增益 比 不 纯度 , 重 做 Ca) . 

Cc) 比较 (a)(b) ,说 明 当 存 在 不 同 分 支 系数 时 ,采用 增益 比 不 纯度 的 好 处 。 


8.5 节 


18. 


19. 


20. 


2 


— 


22. 


23. 


考虑 串 x 和 文本 text, 分别 具有 长 度 m 和 nn, 均 来 自 字 母 表 A,A Pad 个 字母 。 使 用 
朴素 串 匹 配 算 法 (算法 1), 当 出 现 匹 配 错误 而 从 算法 第 4 行 循 环 中 跳出 。 证 明 所 需 的 
平均 单个 字符 比较 的 次 数 对 随机 串 来 说 为 

}—da-™ 
| — d7! 
考虑 用 Boyer-Moore 算法 (算法 2) 对 3- 字 符 的 字母 表 A 二 {a,b,c) 中 的 串 比较 的 问题 。 

对 下 述 串 ,人 研究 其 “好 后 缀 也 数 ”9, 和 “最 后 出 现 消 数 ” 开 : 

(a) “acaccacbac” 

(b) “abababcbcbaaabcbaa” 

(c) “eccaaababacce” 

(d) “abbabbabbcbbabbcbba” 

考虑 图 8-8 CAB Br as BY AB DOC IA ea. BE ARF ha T “probabilities” BFF . [441] 
Ca) 看 采 用 朴素 串 匹 配 算法 ,需要 进行 多 少 次 基本 字符 比较 才能 找到 一 个 有 效 移 位 ? 

Cb) 和 若 采 用 Boyer-Moore 算法 呢 ? 





(n-m +1) < 2(n —m+1}) 


.对 下 列 文 本 ,确定 要 找 出 所 有 的 “abcca "的 有 效 移 位 所 需 的 基本 字符 比较 次 数 。 给 出 


朴素 的 串 匹 配 算法 (算法 1) 和 Boyer-Moore 算法 (算法 2) 的 结果 。 
a) “abcecdabacabbca” 
b) “dadadadadadadad” 
c) “abcbcabcabcabc” 
d) “accabcababacca” 
e) “bbecacbecabbcca” 
试 春 写 出 伪 码 程序 ,要求 实现 Boyer-Moore 算法 (算法 DPA“ RIS AR PHA 
效 计 算 。 已 知 字 母 表 .4 的 长 度 为 d, BEA m. 
(a) 在 最 坏 的 情况 下 ,你 的 计算 下 的 算法 的 时 间 复 杂 度 是 多 少 ? 
(b) 在 最 坏 的 情况 下 ,你 的 计算 大 的 算法 的 空间 复杂 度 是 多 少 ? 
(c) MR dz=26 ,字母 表 是 英文 字母 ,对 下 列 捉 ,x 一 “bonbon”，X 一 “marmalade”， 
Xx 一 “abcdabdabcaabcda”, 估 计 计 算 大 的 基本 操作 次 数 。 
考虑 取 自 下 述 三 元 组 字母 表 A== {a,b,c} 的 训练 样本 : 
WI w2 w3 
aabbc bccba Caaaa 


ababcc bbbca cbcaab 
babbcc cbbaaaa baaca 


利用 简单 的 编辑 距离 对 下 列 串 进 行 分 类 。 有 歧义 时 列 出 所 有 候选 。 
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(a) “abacc” 
(b) “abca” 
(e) “ecbba” 
(d) “bbaaac” 
24. 但 用 如 下 的 数据 : 重 做 (23) 题 
Ca) “ccab” 
(b) “abdca” 
(c) “abc” 
(d) “bacaca” 
. 重 做 (23) 题 ,但 假定 不 同 的 串 运 算 有 不 同 的 人 代价。 特别 是 ,替代 一 次 的 代价 是 插入 和 
删除 的 两 倍 。 
442 26. 考虑 下 述 情 况 , 即 编辑 距离 中 的 代价 只 能 取 正 值 ,而 非 任 意 取 值 。 
Ca) 对 一 个 “度量 ”来 说 ,有 了 哪些 性 质 必须 满足 ?哪些 未 必要 满足 ? 
Cb) 对 不 必 满 足 的 性 质 ,构造 一 个 反例 。 
. 考虑 代价 只 能 取 正 值 编辑 距离 。 问 它 是 否 具 有 以 下 4 个 度量 性 质 : 
(DAERAH. C2) 反射 性 ,(3) 对 称 性 ,(4) 三 角 不 等 式 ，。 
28. 算法 3 VRE x 和 y 的 编辑 距离 时 ,采用 了 “贪心 ”的 策略 ,因而 未 必 给 出 全 局 最 
优 的 结果 。 在 和 下面 的 问题 中 o> |x| =n» | yl 一 72 。 
(a) 与 出 将 x 变 成 的 所 有 穷 举 检验 的 计算 复杂 度 。( 不 考虑 中 间 结 果 串 的 长 度 比 
min[ ni sn: ] 还 小 ， 比 max[ n sn 还 大 的 情况 。) 
(b) 回想 第 5 章 , 写 一 段 用 线性 规划 计算 编辑 距离 的 程序 。 
29. 考虑 一 个 串 x 和 一 个 文本 teat, al Km 和 nn, 均 来 自 有 a 个 字符 的 字母 表 A。 
(a) 修改 朴素 串 匹 配 算法 ,使 之 包含 通配符 。 
(b) 运用 习题 18 的 假定 ,但 是 x 中 有 xk 个 通配符 ,text 中 没有 通配符 , 写 出 对 其 他 随机 
串 的 平均 比较 次 数 。 
(c) PAAR k=0 的 极限 情况 与 习题 18 一 致 。 
(d) WPR k =m 的 极限 情况 的 含义 。 
8.6 节 
30. 在 Lisp 语言 中 ,数学 表达 式 具 有 形式 (运算 ,操作 数 , BEM) ,其 中 表达 式 可 以 髓 
Æ ,例如 (quotient (plus 4 9) 6). 
(a) 对 4 种 基本 算术 运算 加 减 乘除 和 自然 数 1 一 9, 写 出 简单 的 文法 规则 (注意 ,字母 表 
中 应 该 包含 圆 括号 ) 。 
(b) 手工 判断 如 下 表达 式 可 否 由 你 的 文法 导出 。 如 果 可 以 ,绘制 导出 树 。 
e (times (plus (difference 5 9) (times 3 8)) (quotient 2 6)) 
e (7 difference 2) 
ə (quotient (7 plus 2) (plus 6 3)) 
e (Cplus) (6 2)) 
e (difference (plus 5 9) (difference 6 8)) 
31. 考虑 语言 L(G)= 二 {a"b|n 之 1})。 
(a) 手工 构造 一 个 能 产生 该 语言 的 文法 G。 
(b) 利用 G 绘制 串 “ab” 和 “aaaaab” 的 导出 树 。 


2 


on 


2 


~ 
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32. 考虑 文法 G:A=({a,b,csS=S,7=(A;B} ,P={(S~cAb, A—aBa ,B—>aBa, B—>cb}. 


33. 


34. 


35. 


36. 


Ca) G 是 什么 类 型 的 文法 ? 

Cb) 证 明 该 文法 可 以 产生 语言 CCG) = 一 {ca"cba"b|z 之 1)。 

(c) 给 出 如 下 两 串 的 导 出 树 :“caacbaab”, “cacbab”。 

回 文 是 这 样 的 一 种 句子 , 它 的 顺 读 和 倒 读 都 是 一 样 的 。 例 如 “1”,“tat”,“boob”, “sito- 

napotatopanotis”。 

Ca) 写 一 个 文法 ,可 以 生成 用 26 个 美文 字母 组 成 的 所 有 回 文 。 写 出 “noon” 和 “bib” 的 
FAP. 

Cb) 你 的 文法 类 型 是 什么 ? 

(c) 写 一 个 文法 ,可 以 生成 如 下 单词 , 即 由 一 个 首 字 母后 跟 一 个 回 文 组 成 。 例 如 “pi”， 
“too”,“stat”, 试 着 些 写 出 它们 导出 树 。 

考虑 例 3 中 的 文法 G。 

Ca) 对 数字 1 一 999 一 共有 多 少 种 可 能 的 导出 方式 ? 

(b) 对 数字 1 一 999999 一 共有 和 多少 种 可 能 的 导出 方式 ? 

Cc) 文法 G 是 否 对 每 一 个 数字 (最 多 6 位) ,都 有 多 于 一 种 的 导出 方式 ? 

回想 一 下 是 空 串 , 它 被 定义 为 长 度 为 零 ,并 且 只 出 现在 终止 串 中 。 考 虑 如 下 文法 ,G: 

A={a},S=S,T=(A, B, C, D, E, ARFER 


S — ACaB Ca 一 aaC 
P= CB — DB CB => È 
— | aD > Da aD > AC 
ak — Ea AE 一 上 


(a) 注意 A 和 B 是 分 别 如 何 表 示 句 子 的 开始 和 结束 的 ,C 是 一 个 对 a 加 倍 复制 的 标志 ( 当 
它 从 左 向 右 滑 过 单词 时 )。 证 明 该 文法 可 以 生成 的 语言 为 C(G) = {a |n>0}. 
(b) 对 于 “aaaa”,“aaaaaaaa” 写 出 其 导出 树 。 
研究 Chomsky 范式 。 
Ca) 证 明 如 下 的 文法 G 不 是 Chomsky ŽA: 
A={t{a bs ,S=S,7=(A,B} 
S —bA OR aB 


P=} A >bAAORAS ORa 
B —>aBB ORbS ORb 


(Cb) 证 明 如 下 的 文法 G Chomsky 范式 。 
A=(asb} S=S,T=t(AsB,C, C, dD, »D,} 


S — CŁA ORC,B Di 一 AA 

A —> C45 OR CD, OR a Dı > BB 

B —> CS OR Ca D2 OR b Cı >a 
C, > b 


(c) 证 明 将 G 的 重 写 规则 按照 如 下 方式 变 成 G 的 重 写 规则 后 ,两 文法 是 等 价 的 。 注 
意 到 ,4 一 a,B-~b 被 两 个 文法 都 已 经 接受 ,于 是 主要 考虑 G 的 其 他 规则 。 首 先 将 
S 一 b4 变 成 S 一 CA 和 (Co 一 b。 然 后 ,将 A 一 aS 变 成 A 一 CS MCa. KEX 
推 , 注 意 在 推导 时 心里 记 住 C@ 种 的 规则 形式 。 


P= 
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(d 试 在 文法 G 和 GG 给 出 “aabab” 一 个 推导 。 
37. 证 明 下 列 语 言 不 是 上 下 文 无 关 语 言 。 
(a) L(G)= {a bió |i<cj<k}, 
(b) L(G) = {a |i BRE). 
38. 考虑 如 下 文法 G: A=(a,b,c},S=S,T={A,B}, 
S —>aSBAORaBA AB>BA 


P = bB 一 bb bA 一 bc 
cA 一 cc aB — ab 


证 明 它 可 以 生成 语言 L(G)= 二 {a"b"c"|n 之 1}。 
39. 试用 例 3 的 文法 手工 分 析 如 下 数字 的 读 法 。 如 果 分 析 成 功 , 则 给 出 其 导出 树 。 
(a) three hundred forty two thousand six hundred nineteen 
(Cb) thirteen 
(c) nine hundred thousand 
(d) two thousand six hundred thousand five 
Ce) one hundred sixty eleven 
8.7 ® 
40. S&D: = (ab. abb, abbb} MD: = (ba, aba, babb} 4} FUE HE G, M G: 的 正 例 ， 
Ca) 假定 两 个 文法 都 是 3- 型 文法 , 试 写 出 一 些 候选 的 重 写 规则 。 
(b) 用 Di 作为 正 例 ,D;: 作 为 反例 , 试 推断 文法 G. 
(c) AD EA LEB. Di EW Fz Bl. HEMT ITE G. 
Cd) 用 你 得 到 的 文法 对 下 列 句 子 分 类 。 把 不 能 在 Di 或 D* 中 或 同时 “模糊 ”的 类 别 标 
ia. “bba”,“abab”, “bbb”, “abbbb”, 
8.8 $ 
41. 对 后 面 列举 的 每 一 个 陈述 ,用 谓词 Male(+), Female(+), Parent(*,*),Married(*,*), 5 
出 一 个 等 价 的 规则 。 
(a) Sister(*,*), HP Sister(x,y)=True 意味 着 x 是 y 的 姐妹 。 
(b) Father(+,*), #4 Father(x,y) 二 True 仅 意 味 着 x 是 y 的 父亲 。 
(Cc) Grandmother(*,*) ,其 中 Grandmother(x,y) 一 True 仅 意味 着 x 是 y 的 祖母。 
(d) Husband(*,*) ,其 中 Husband(x,y) 王 True 仅 意 味 着 x 是 y 的 丈夫 。 
(e) IsWife(*) ,其 中 IsWife(x) 二 True 仅 意味 着 x BET. 
(H) Siblings(+,*) 
(g) FirstCousins(*,*) 





P. 上 机 练习 


以 下 几 个 练习 可 以 采用 下 表 中 的 数据 , 它 取 自 3- 类 模式 ,每 类 有 5 SARE, RAB 
了 取 值 的 范围 。 注 意 样 本 个 数 有 所 不 同 ,每 个 特征 可 以 取 的 值 的 范围 也 不 同 。 
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样 本 类 Hl A-D E-G H-J K-L M — N 





1 人 A E H K M 
2 W| B E I L. M 
3 W A G 7 L N 
4 a} B G H K M 
5 wl A G 7 L M 
6 un B F i L M 
7 Wy B F J L N 
8 Ww B E / L N 
9 Ww C G J K N 
10 W C G J L M 
11 wy D G J K M 
12 (D3 B D l a M 
13 wy D E H K N 
14 Wy A E H K N 
15 w3 D E H L N 
16 Ww D F J L N 
17 W3 A F H K N 
18 (13 D E J L M 
19 (23 C F J L M 
20 W3 D F H L M 
8.3 5 
1. BPA BM MOP KANE EF A ERRE RK I Ao A AB EE 
Ca) 采用 (未 剪 枝 ) 树 来 分 类 下 列 数据 ， 


(AD 开矿 下, 入 (DB 天 AM 人 CD 大工 入) 

Cb) 喜 校 菜 个 叶 节 点 ,保证 由 此 导致 的 不 纯度 的 增加 最 小 。 

Co) 修改 程序 ,使 之 能 够 适用 于 非 二 又 树 , 其 中 的 分 支 率 B 可 以 根据 不 同 节点 自动 确 
RE ,采用 增益 比 不 纯度 ,并 重 做 (a)， 

.回想 一 下 ,有 一 种 停止 准则 是 说 ,如 果 不 纯度 的 落差 小 于 某 个 门限 值 就 停止 分 支 。 即 
max, Ai(s) <P, HPs 是 分 支 ,8 是 门限 。 利 用 下 述 试 验 来 研究 分 类 器 的 推广 能 力 和 6 
的 关系。 

Ca) 产生 200 个 样本 点 ,其 中 各 有 100 个 分 别 服从 如 下 正 态 分 布 : 


一 0.2 
PXID ~N (( 0 *).1) 和 pala) ~ N (E01) 


(b) 写 一 个 程序 能 够 生成 树 ,并 且 采 用 上 述 停止 准则 . 
Cc) 给 出 当 B= 二 0.01,0.02,0.03,… 的 推广 能 力 与 8 的 关系 图 。 
(d) 根据 上 图 讨论 你 有 关 推 广 能 力 的 结论 。 
8.4 节 
3. 写 一 个 训练 ID3 判定 树 的 程序 ,其 中 树 的 节点 分 文 率 B 等 同 于 每 个 属性 装填 的 离散 值 
的 个 数 , 采 用 增益 比 不 纯度 。 
Ca) 利用 你 的 程序 对 表 中 的 ww 和 训练 一 棵 树 。 
Cb) 利用 你 的 树 分 类 如 下 数据 :{B, G, I, K, N},(C, D, J, L, M}. 
Cc) 写 出 (b) 的 分 类 逻辑 表达 式 , 并 化 简 。 
(d 写 出 描述 类 别 o, 和 wz 的 逻辑 表达 式 。 


INO 
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4. 


on 


or) 


OO 


ao £28 


考虑 基于 树 的 分 类 器 用 于 缺损 模式 问题 。 
(a) 写 一 个 程序 ,要 求 能 够 对 表 中 的 w 和 ws 分 类 ,要求 只 利用 1 一 10 号 样本 ,并 采用 和 炉 

不 纯度 。 对 每 个 节点 存储 其 主 分 支 ,和 4 PENT. 
Cb) 用 你 的 树 分 类 如 下 模式 ,其 中 * 表示 丢失 的 特征 。 


+ {A,F,H,K,.M} 
e {*,G,H,K,M} 
e {C,F,I,L,N} 

e {(B,*¥,*,K,N} 


Cc) 现在 , 写 一 个 可 以 利用 缺损 模式 来 训练 的 程序 ,训练 样本 除了 1 一 10 以 外 在 加 上 如 
下 4 个 。 
w:{*, F, I, K, N} 
. -o (B, G, H, K, x} 
* a: 1C, G, *,L, N} 
w:{ x, F, I, K, N? 
(d) FFAG) YB ERIR). 


.用 全 部 20 个 样本 训练 树 分 类 器 w i= 1, 2, 3, RFA. BORA BG BC A IE EM 


Ca) 用 一 个 规则 来 表示 你 的 树 。 
Cb) 利用 穷 举 搜索 找到 这 样 的 规则 ,如 果 删 除 它 所 引起 的 分 类 误差 的 增加 最 小 。 


5p 
. 写 一 个 程序 实现 朴素 的 串 匹 配 算法 (算法 1) , 揪 人 一 个 条 件 分 支 语句 ,以 使 得 任何 匹配 


错误 发 生 时 ( 即 非法 转移 ) 都 能 从 最 内 层 循 环 跳 出 。 增 加 一 个 统计 字符 比较 次 数 的 语 

Ai] 

(a) 写 一 个 小 程序 ,从 含有 d 个 字符 的 字母 表 , 产 生长 度 为 WOAH POEM x, 
其 长 度 为 m。 已 知 d=5,n=1000,m=—10, 

Cb) 比较 你 统计 出 的 次 数 , 并 与 习题 18 的 理论 结果 相 比 较 。 测 试 m= {10,15,20} 
n 二 {100,1000,10000}) 的 情况 。 


. 写 一 个 实现 Boyer-Moore 算法 (算法 2) 的 程序 ,字母 表 长 度 d. 


(a) 写 一 个 子 程序 ,实现 “好 后 缀 函数 ”9。 令 d=3, 并 用 如 下 串 测 试 你 的 子 程序 。 
x, = “abcbab”,x, =—=“babab”., 

b 写 一 个 子 程序 ,实现 “最 后 出 现 蚂 数 ” 下 。 令 d= 二 3, 并 用 如 下 串 测 试 你 的 子 程序 。 
x, = “abcbab”,x, =“babab”, 

(c) 合并 (a) (b) 中 的 例 程 写 出 完整 的 Boyer-Moore 程序 ,从 字母 表 A 二 {a,b,c} 产 生 一 
个 长 n=10000 的 文本 ,并 从 中 搜索 X ,xz 。 

Cd) 在 某 些 统计 假设 下 ,估计 xi ,xz 的 出 现 次 数 ,并 与 (c) 实 际 测 出 的 比较 一 下 。 


. 写 一 个 程序 研究 串 匹配 的 子 集 - 超 集 问题 。 即 搜索 某 个 具有 多 重子 串 的 数据 ,其 中 某 些 


是 另 一 些 的 因子 。 
(a) & x, =“beats”,x, = “beat”,x, =“be”,x, =“at”,x; =“eat”,x;,= “sat”, 
text = “beats_beats_beats_..._beats” 
ell 
100 x 


从 文本 中 搜索 所 有 可 能 的 因子 ERR RL Ht a A) He 
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Y 的 


(b) 重复 (a) 但 文本 是 重复 100 KH “repeatable ”, jl) it $ Æ “repeatable”, “pea”, 


“table” ， “tah” ， “able” ， + peat” ， ák a” 5 


8.6 节 
. 写 一 个 分 析 正 文 


Se) 


Pi: S — AB OR BC 
PR: A— BAORA 
p3: B — CCORb 
Pa: C — AB ORa 


中 的 文法 的 分 析 程 序 。 利 用 你 的 分 析 程 序 分 析 下 列 串 ,要 求 给 出 完整 的 分 析 树 ,如果 成 


A = {a,b}. T = {A, B}, S = S, and P = 


功 还 要 给 出 导出 树 。 
e “aaaabbab” 
e “ba” 
e “baabab” 
e “babab” 
. “aaa” 
e “baaa” 
10. 考虑 如 下 正文 中 描述 的 文法 G:A= la} S=S,T5{A,B,C, D,E}, 
$ — ACaB Ca — aaC 
万 CB — DB CB > E 
aD — Da aD — AC 
ak — Ea AE >€ 


注意 4, 忆 分 别 表示 串 的 开头 和 结尾 ,C 是 a 重 复 一 次 的 标志 。 
(a) 证 明 该 文法 可 以 生成 如 下 语言 :CC(G)=={a? |n>0}. 
(b) 显示 申 “aaaa” 和 “aaaaaaaa” 的 导出 树 。 
11. 写 一 个 程序 ,要求 利 用 下 述 正 例 和 反例 推断 出 文法 G. 
(a) D+ =(abc,aabbcc, aaabbbccc} 
Cb) D- = (abbc,abcc,aabec} 


候选 规则 如 下 : 
S- aSBA AB — BA cB->aC 
S—>bSBA BA—>AB ba 一 bc 
S$S— aBA b8 一 bb bC — bc 
S 一 aSB bC — ba aB — ab 
S + aSA cA -> cc aB 一 ca 
推断 过 程 如 下 : 


(a) 实现 一 般 的 自 底 问 上 分 析 恬 (算法 4) 。 
(b) 实现 一 般 的 自 顶 向 下 分 析 器 (算法 5). 
(c) 组 合 利 用 (Ca)(b) ,实现 文法 推断 。 
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独立 于 算法 的 机 器 学 习 


在 前 面 几 章 中 ,我 们 已 绎 看 到 了 很 多 模式 识别 的 学 习 算 法 和 技术 。 面 对 各 种 各 样 的 算法 ， 
每 个 人 可 能 都 会 疑惑 究竟 哪 一 个 算法 才 是 “最 好 的 ”>。 当 然 ,我们 可 能 更 偏爱 某 些 算法 ,仅仅 因 
为 七 们 有 相对 较 小 的 计算 复 条 度 ; 或 者 更 喜欢 另外 的 一 些 算法 ,原因 是 它们 考虑 了 数据 形式 的 
先 验 知 识 ( 比 如 离散 数据 ,连续 数据 ,无 序 表 , 串 ,等 等 )。 虽 然 这 样 , 还 有 许多 的 分 类 问题 ,我们 
对 于 它们 根本 没有 考虑 或 很 少 考 虑 过 关于 “偏爱 ”的 问题 ,或 者 说 ,对 于 它们 ,我 们 只 希望 能 够 
比较 不 同 的 算法 ,看 看 它们 是 否 等 价 , 或 者 是 否 存 在 相似 之 处 ? 在 这 种 情况 下 ,要 回答 的 问题 
是 :是 否 真 的 存在 什么 理由 可 以 使 我 们 更 偏爱 其 中 的 某 一 种 算法 ,而 不 是 其 他 算法 ? 比如 说 ， 
假设 有 两 个 分 类 器 在 训练 集 上 有 同样 好 的 性 能 ,但 我 们 却 通常 认为 :其 中 较 简 单 的 一 个 在 测试 
集 上 能 得 到 更 好 的 效果 。 但 是 ,是 否 这 一 款 “Occam 剃刀 原理 ” 真 的 这 么 可 靠 吗 ? 同样 的 ,我 
们 通常 也 倾 回 于 对 判别 函数 宛 加 平滑 性 的 约束 。 那 么 ,是 否 “ 更 简单 ”(simpler) 或 者 “更 平滑 ” 
(smoother) 的 分 类 器 一 定 具 有 更 好 的 推广 能 力 呢 ? 如 果 答 案 是 肯定 的 ,那么 ,原因 何在 呢 ? 在 
本 童 中 ,我 们 将 讨论 这 些 与 统计 模式 识别 的 埋 论 基础 和 哲学 基石 有 关 的 问题 。 到 目前 为 止 , 相 
信 读 者 对 于 具体 的 算法 已 经 有 了 一 些 体 会 和 经 验 , 这 将 有 助 于 在 一 般 的 学 习 理 论 的 框架 中 理 
解 上 述 问题 。 

在 茶 些 领域 ,存在 严格 的 守恒 定理 和 约束 法 则 一 一 比如 物理 学 中 的 能 量 守恒 .电荷 守 恒 和 
动量 和 矩 守恒 。 还 比如 热力 学 第 二 定律 , 它 表 明 一 个 封闭 的 系统 的 粹 永远 不 会 下 降 。 不 管 外 力 
的 配置 如 何 、 大 小 如 何 , 这 些 宇 理 始 终 成 立 。 正 是 由 于 这 些 定理 所 具有 的 重大 意义 ,我 们 自然 
会 问 :在 模式 识别 领域 是 否 存 在 类 似 的 .不 依赖 于 特定 分 类 器 和 学 习 算 法 选择 的 普 适 定理 ?是 
否 存 在 某 些 基 本 的 结论 ,它们 不 管 设 计 者 有 多 么 聪明 模式 的 数量 和 分 布 特性 如 何 、 分 类 任务 
的 本 质 如 何 , 都 始终 有 效 ? 

诚然 ,知道 分 类 器 的 正确 率 存 在 一 个 界限 ( 即 贝 叶 斯 误差 率 ) 是 非常 有 用 的 ,有 了 时候 ,至 少 
在 理论 上 , 它 可 以 用 来 比较 分 类 器 的 性 能 极限 。 然 而 在 实践 中 ,我 们 极 少 (假如 曾经 有 过 的 
话 ,) 能 够 准确 知道 贝 叶 斯 误差 率 。 即 使 假设 已 经 知道 贝 叶 斯 误差 率 , 这 除了 告诉 我 们 进一步 
的 训练 以 及 数据 采集 都 用 处 不 大 以 外 ,并 不 能 很 好 地 帮助 我 们 来 改进 设计 分 类 器 。 因 此 , 贝 叶 
斯 误差 率 更 大 的 价值 在 于 理 沦 方面 。 那 么 ,其 他 的 对 设计 分 类 器 具有 更 多 实践 意义 的 基本 原 
理 和 基本 性 质 又 是 什么 呢 ? 

在 讨论 这 些 问 题 之 前 , 先 来 滞 清 一 下 本 章 的 标题 “独立 于 算法 的 机 器 学 习 ” 的 含义 。 首 先 ， 
它 是 指 其 数学 基础 不 依赖 于 所 采用 的 特定 分 类 器 和 特定 学 习 算 法 。 我 们 随后 要 讨论 的 “偏差 
Al Fy #2” (bias and variance) 的 内 容 , 对 于 神经 网 络 . 最 近邻 法 .或 者 依赖 于 模型 的 最 大 似 然 法 
都 问 梓 有 效 。 第 二 是 指 : 这 些 技术 可 以 与 各 种 不 同 的 学 习 算 法 组 合 使 用 ,或 者 ,为 它们 提供 应 
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用 指导 。 例 如 ,交叉 验证 ?和 "* 重 采样 ”方法 可 应 用 于 任何 一 种 训练 算法 。 当 然 , 从 算法 的 广义 


定义 来 说 ,它们 本 身 也 是 一 种 算法 。 从 技术 上 讲 ,我 们 单独 讨论 这 些 方 法 ,是 因为 它们 的 广泛 
适用 ,并 且 不 依赖 于 具体 的 学 习 算法 的 细 方 。 

在 本 章 中 我 们 将 首先 看 到 ,不 存在 任何 一 种 模式 分 类 算法 具有 “与 生 俱 来 ”的 优越 性 ,其 至 
都 不 比 随 机 猜测 的 (结果 ) 好 。 只 有 了 人 解 了 问题 的 具体 类 型 、 先 验 分 布 情况 、 以 及 其 他 一 些 信 
息 ,才能 确定 哪 种 形式 的 分 类 器 将 提供 最 好 的 性 能 。 我 们 将 研究 几 种 定量 刻 划 并 且 调 方 茶 个 
学 习 算 法 与 给 定 问 题 的 “匹配 ?(matching) 程 度 的 方法 。 对 于 任意 具体 问题 ,不 同 的 分 类 器 之 
间 当 然 存在 一 些 差别 。 我 们 将 表明 ,在 某 些 假定 下 ,可 以 估计 出 分 类 器 的 准确 率 ( 黄 至 在 分 类 
器 完成 训练 之 前 ) ,并 且 可 以 对 不 同 的 分 类 上 顺 进 行 比较 。 最 后 ,我们 还 将 看 到 ,可 以 组 合 不 同 的 
子 分 类 器 或 “专家 ?分 类 器 实现 一 个 “大 ”的 集成 分 类 句 , 各 个 子 分 类 需 多 许 采 用 不 尽 相 同 的 学 
习 算 法 。 

本 章 中 ,我们 将 会 为 模式 识别 的 实践 者 提供 至 关 重 要 的 结论 ,而 跳 过 了 它们 的 严格 的 数学 
证 明 ,对 此 感 兴趣 的 读者 可 以 参考 后 面 的 "文献 和 历史 评述 ”一世 中 的 原始 文献 。 


9.2 没有 天 生 优越 的 分 类 器 


现在 我 们 开始 转 到 上 面 提 到 的 一 个 中 心 问题 ;如 果 仅 仅 对 分 类 器 的 推广 性 能 感 兴 趣 , 那 
么 ,是 否 有 理由 认为 一 个 分 类 器 或 学 习 算 法 比 另 一 个 更 好 ? 如 果 对 具体 分 类 任务 的 本 质 不 做 
任何 先 验 假设 ,那么 是 否 能 够 期 望 某 个 分 类 算法 一 定 优越 (或 者 一 定 低 劣 ) 一 一 哪怕 要 比较 的 
对 象 仅仅 是 随机 猜测 (算法 )? 


9.2.1 没有 免费 的 午餐 定理 


“没有 免费 的 午餐 定理 2”(No Free Lunch Theorem, NFL 定理 ) 的 结论 是 :对 于 上 述 问 题 以 及 
相关 的 问题 的 回答 是 : “不 ”。 如 果 目 的 是 得 到 更 好 的 推广 性 能 ,那么 ,不 存在 与 “ 语 境 无 关 ”(con- 
text-free, 上下文 无 关 ) 或 与 “应 用 无 关 ”(usage - free) 的 任何 理由 来 认定 某 种 学 习 或 分 类 算法 比 另 
外 一 种 更 好 。 如 果 某 种 算法 对 某 个 特定 的 问题 看 上 去 比 另 一 种 算法 更 好 ,那么 其 原因 仅仅 是 它 
更 适合 这 一 特定 的 模式 分 类 任务 ,而 并 非 泛 泛 的 说 该 算法 就 是 “优越 ?。 当 面 对 一 个 新 的 分 类 问 
题 ,对 NFL 定理 的 深刻 理解 会 提醒 我 们 应 该 注意 的 是 事物 的 本 质 一 一 即 , 先 验 信 息 、 数 据 的 分 
布 .训练 样本 的 数量 、 代 价 或 奖励 函数 。 这 一 定理 同样 证 实 了 我 们 对 于 如 下 “研究 ”的 怀疑 态 
度 一 一 这 些 “ 研 究 ” 旨 在 说 明 某 种 学 习 算 法 或 识别 算法 具有 天 生 的 优越 性 。 

首先 让 我 们 更 进一步 的 来 考虑 有 关 评 定 一 个 分 类 器 推广 能 力 的 方法 。 到 目前 为 止 , 我 们 
都 是 通过 一 个 独立 采样 的 测试 集 ( 相 比 于 训练 集 ) 来 估计 该 性 能 。 在 某 些 情况 下 , 当 用 于 分 类 
器 的 比较 时 ,会 出 现 意 想不到 的 缺点 。 例 如 ,对 一 个 离散 问题 , 当 训 练 集 和 测试 集 都 很 大 时 , 它 
们 必定 会 有 重叠, 即 我 们 将 测试 到 训练 过 的 模式 。 并 且 , 事 实 上 任何 一 种 很 强 的 算法 ,如 最 近 
邻 法 , 非 修 剪 的 判定 树 ,或 是 有 足够 多 隐 节 点 数目 的 神经 网 络 , 对 于 训练 集 目 身 都 可 以 学 习 得 
很 完美 。 另 外 ,对 低 噪 声 或 低 贝 叶 斯 错误 率 的 情况 ,如果 采 用 足够 有 效 的 算法 去 学 习 训练 集 ， 
那么 其 独立 同 分 布 Gi.i.d. ) 误 差 率 的 上 界 将 随 训 练 集 大 小 的 增加 而 下 降 。 

因此 ,为 了 比较 不 同 的 学 习 算法 ,我 们 将 采用 “ 非 训 练 集 误差 率 ”(off-training set error), 
即 不 在 训练 集中 的 测试 错误 。 如 果 训 练 集 非常 的 大 ,那么 非 训 练 集 的 数据 量 的 最 大 尺寸 必 


O ”这 个 聪明 的 名 称 是 由 David Haussler 提出 的 。 
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定 会 较 小 。 
简单 起 见 ， 考虑 两 类 问题 。 设 训练 集 力 中 有 模式 xs. 以 及 由 将 被 学 习 的 未 知 目 标 函 数 
F(x) 所 产生 相连 的 类 别 标记 y= 二 十 1, i 二 1 ，… n, y= FOX) 。 在 大 多 数 感 兴趣 的 情况 


下 , F(x) 中 含有 随机 成 分 ， 相同 的 输入 可 能 会 被 分 到 不 同 的 类 别 中 ， 导致 非 零 的 贝 叶 斯 误差 
率 。 首先 我 们 假定 特征 集 是 离散 的 , 这 样 作 , 可 以 简化 符号 , 并 且 可 以 使 用 求 和 式 和 概率 ,分 
别 来 代替 积分 和 密度 函数 。 下 述 结论 对 连续 情况 下 同样 成 立 , 但 是 所 需 技术 细节 将 给 我 们 的 
Wit 4 RR 

令 1t 表 示 ( 离 散 ) 的 假设 集 , 或 者 说 是 将 被 学 习 的 可 能 的 参数 集合 。 某 个 特定 的 假设 
h(x) EH 可 以 是 神经 网 络 中 的 量化 权 值 泛 函 模型 中 的 参数 8 或 者 树 中 的 决策 规则 集 , 等 等 。 
首先 ,P(h) 是 关于 训练 后 将 产生 结果 hh 的 先 验 概率 。 注 意 这 里 的 P(4) 并 不 是 有 为 真 的 概率 。 
下 一 步 , 令 P(h|D) 表 示 算 法 在 集 DP 上 训练 而 产生 假设 有 的 概率 。 在 确定 性 的 学 习 算 法 当中 
《比如 最 近邻 和 判定 树 ), PCD) 除 了 天 以 外 ,其 他 处 处 为 零 。 而 对 于 随机 学 习 方 法 (例如 神 
经 网 络 训 练 是 从 随机 的 初始 权 中 开始 的 ) ,或 随机 Boltzmann 学 习 , P(h|D) 可 以 是 一 个 更 广 的 
tH. SEA 0-1 损失 函数 或 者 其 他 损失 函数 的 误差 。 

到 底 该 怎样 来 判定 某 个 学 习 算 法 的 推广 性 能 呢 ? 由 于 没有 给 出 目标 函数 ,一 个 很 自然 的 
度量 方法 是 给 定 刀 情况 下 的 错误 率 对 所 有 可 能 的 目标 求 和 所 得 出 的 期 望 值 。 这 种 度量 值 可 以 
描述 为 分 布 Phi DM PCEID) 之 间 的 加 权 “ 内 积 ” 如 下 : 


E[E|D] = >》 PO — 6(F(%), h(x)]P(ID)P (FID) (1) 
h,F x€D 

其 中 ,假定 没有 了 噪声。6(。,，) 是 我 们 熟知 的 Kronecker 6 函数 , 它 当 两 个 参数 一 致 时 函数 值 
为 1, 否 则 为 0。 公 式 (1) 表 明 : 一 个 固定 的 训练 集 DD 的 期 望 误差 率 ,与 对 所 有 可 能 的 输入 利用 
它们 的 概率 P(x) 的 加 权 和 ,以 及 后 验 概率 P(h|D) 与 真实 的 PC(FID) 的 “匹配 ”情况 有 关 。 这 
个 公式 提供 的 重要 观点 是 ,如 果 没 有 关于 PC(F|D) 的 先 验 知识 ,我 们 将 不 能 检验 某 一 特定 算法 

PID), AE HET ERE. 
当 实 际 函 数 是 F(x) MRE BIE ERE P, (h(x)1D) 时 , 非 训 练 集 的 期 望 误 差 率 是 


E.(E|F,n) = > P(x)[1 — 6(F (x), h(x))] Py (A(x) D) (2) 
x¢D 
尽管 我 们 不 准备 给 出 正式 的 证 明 ,但 是 讲 到 这 里 ,已 经 可 以 给 出 “没有 免费 的 午餐 ”定理 的 准确 
描述 。 





a ”定理 9.1 (没有 免费 的 午餐 )(no free lunch,NFL) 对 于 任意 两 个 学 习 算 法 P h| D) 和 
Pz (iD), 以 下 陈述 是 正确 的 ,并 且 与 样本 的 分 布 PCx) 及 训练 点 的 个 数 无 关 : 

1. 对 所 有 的 目标 消 数 下 求 平均 ,有 2 (E| Fon) —€2(E| Fon) =0, 

2. 对 任意 国定 的 训练 集 刀 ,对 所 有 的 下 求 平均 ,有 2 (E| F.D) —€.(E|F.D)=0. 

3. 对 所 有 先 验 知识 PCP ORE, AE. Eln EEn =0, 

4. 对 任意 固定 的 训练 集 DD, 对 所 有 的 PC(F) 求 平均 ,有 E1(E1D) 一 Ey(E|D)==0。 





第 1 部 分 说 明 对 所 有 可 能 的 目标 函数 求 平均 ,得 到 的 所 有 学 习 算 法 的 非 训 练 集 误差 的 期 
望 值 都 是 相同 的 。 也 就 是 说 ,对 于 任意 给 定 的 两 个 学 习 算 法 ,有 下 式 成 立 : 
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DD PIP EEF, n) — E(EIF, n)] =0 (3) 
F D 


简 言 之 ,不 管 我 们 有 多 么 聪明 ,能 够 选择 “好 ”的 学 习 算法 Pi(h1D) 和 “ 坏 ” 学 习 算 法 
P,(h1D)( 其 至 有 可 能 只 是 随机 猜测 算法 ,或 者 只 输出 一 个 常数 结果 ) ,如 果 所 有 的 目标 函数 是 
平等 的 ,那么 “好 ”的 算法 并 不 可 能 比 “ 坏 ”算法 做 得 更 好 。 更 一 般 的 描述 是 ,不 存在 某 个 i 和 j， 
使 得 对 所 有 的 F(x) 都 有 E;《EIF,n)>Ej (EIF,n)。 更 进一步 地 说 ,不 管 采用 何 种 学 习 算 法 ,至 
少 存在 一 个 目标 函数 ,能 够 使 得 随机 猜测 算法 是 更 好 的 算法 。 

假定 我 们 所 考虑 的 训练 集 可 以 通过 任何 算法 来 学 习 ,第 2 部 分 表明 了 :即使 知道 了 训练 集 
D, 那 么 对 所 有 的 目标 函数 求 平均 ,也 没有 一 种 学 习 算法 可 以 比 另 一 种 更 优秀 , 即 

2_[Ei(EIF,D) ~ E(E|F, D)} = 0 (4) 
F 


定理 第 3 部 分 和 第 4 Bade ST OED) A A H ER R BT tA) HR A 1 
提供 了 一 个 基本 的 解释 。 


例 1 二 值 数据 没有 免费 的 午餐 

考虑 输入 矢量 由 3 个 二 值 特 征 组 成 ,以 及 一 个 特定 的 目标 函数 FCx) ,如 下 表 所 示 。 假 设 
一 个 (确定 性 的 ) 学 习 算 法 1 认为 每 一 个 模式 都 归 类 为 w ,除非 被 训练 过 。 而 算法 2 则 认为 每 
个 模式 都 归 类 为 w, ,除非 被 训练 过 。 这 样 当 在 DD 中 训练 次 数 n=3 时 ,每 一 个 算法 返回 一 个 假 
BoM h,。 在 这 种 情况 下 期 望 的 “ 非 训 练 集 误 差 率 ”为 1 (E|F,D) 一 0.4 和 
E&E | F,p)=0.6, 





对 于 这 一 目标 函数 ,很 显然 算法 1 优 于 算法 2。 但 是 请 注意 一 点 , 即 , 设 计 者 事先 并 不 可 
能 知道 F(x) 一 一 确实 ,我 们 假定 并 没有 关于 F(x) 的 先 验 信息 。 而 事实 上 ,所 有 的 目标 函数 都 
是 平等 的 ,这 意味 着 刀 无 法 为 FC(x) 提 供 有 关 的 一 点 点 信息 。 如 果 我 们 想 对 所 有 的 算法 作 比 
较 ,就 必须 对 所 有 可 能 的 目标 函数 求 平均 。NEFL 定理 的 第 2 部 分 表明 对 所 有 可 能 的 目标 函数 
求 平均 ,那么 这 两 个 算法 的 非 训 练 集 误差 率 将 没有 任何 差别 。 在 表 中 2 种 不 同 的 目标 函数 中 
与 训练 集 n=3 的 DD 模式 集 相 一 致 的 ,确实 存在 另外 一 个 目标 函数 , 它 的 输出 是 每 一 个 非 训 练 
集 模式 输出 的 求 “ 反 ”, 这 就 使 得 算法 1 和 算法 2 的 性 能 也 相反 ,因而 使 得 它们 对 定理 第 2 部 分 
的 贡献 相互 抵消 ,因此 定理 的 第 2 部 分 或 公式 (4) 都 成 立 。 





图 9-1 表示 定理 9. 1 的 第 1 部 分 可 以 推出 的 结果 。6 个 方块 表明 了 所 有 可 能 的 分 类 问 
题 ,注意 到 这 里 并 不 是 标准 的 特征 空间 。 如 果 一 个 学 习 系 统 对 某 些 问题 集 的 性 能 比较 好 一 一 
即 , 比 平均 推广 性 能 要 好 一 一 那么 , 它 肯 定 在 另外 一 些 地 方 比 平均 性 能 要 差 ,如 图 9-1a 所 示 。 
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没有 哪个 系统 可 以 在 全 部 函数 集 的 全 部 地 方 都 做 得 很 好 (图 9-1d) ,否则 的 话 , 将 与 “没有 免费 
FE ce "AE 

总 而 言 之 , 所 有 的 有 关 “ 某 个 学 习 或 识别 算法 1 比 算 法 2 更 好 ”的 说 法 ,都 无 可 避免 地 要 
涉及 某 个 相关 的 目标 函数 。 因 此 . 在 推广 性 能 上 也 存在 一 个 普 适 的 “守恒 率 ”: 对 每 一 个 可 行 
的 二 值 分 类 学 习 算 法 来 说 ,它们 的 性 能 对 所 有 可 能 的 目标 函数 的 求 和 结果 确切 地 为 零 。 这 
EE, 如果 我 们 不 在 一 些 问题 上 付出 数量 相等 的 负 的 性 能 代价 的 话 , 那么 是 根本 不 可 能 在 另外 
一 些 问题 上 得 到 正 的 性 能 提高 的 . 这 样 , 如 果 我 们 预期 不 会 采用 某 些 特定 的 算法 去 解决 某 个 
问题 , 那么 可 以 对 这 个 问题 的 性 能 作 些 折 中 ,而 相应 的 提高 男 外 那些 我 们 预期 会 遇 到 的 问题 
的 性 能 。 这 个 结论 , 与 NFL 定理 的 其 他 结论 在 一 起 , 共同 强调 的 是 : 学 习 算 法 必须 要 作 一 些 
与 问题 领域 有 关 的 “假设 ”(assumptions) 。 该 定理 的 另外 一 个 实践 意义 在 于 : 即使 是 一 个 非常 
流行 并 旦 有 坚实 的 理论 基础 的 算法 , 也 会 对 某 些 问题 上 得 到 很 差 的 结果 , 假如 该 问题 的 后 验 
恰好 与 学 习 算 法 不 “匹配 ”时 。 实 践 者 必须 明白 这 种 现实 问题 中 的 可 能 性 。 所 谓 “ 专 家 ”， 也 不 
过 只 擅长 一 个 很 小 的 专门 领域 。 即使 是 功能 强大 的 算法 (例如 神经 网 络 ),， 也 不 能 解决 所 有 的 
问题 。 掌 握 更 多 的 不 同 种 类 的 技术 ,是 实践 者 面 对 任 意 的 新 的 分 类 问题 时 仍 能 保持 从 容 不 迫 
态度 的 最 佳 保 证 。 
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图 9-1 “没有 免费 的 午餐 定理 ”表明 了 非 训 练 集 上 的 推广 性 能 ,上 面 一 行 图 是 可 能 发 生 的 情况 ， 
而 下 面 一 行 是 不 可 能 发 生 的 情况 。 每 一 个 方 格 代表 与 训练 数据 集 一 致 的 所 有 可 能 的 分 类 问题 (这 
里 采用 的 不 是 我 们 熟悉 的 特征 空间 )。 图 中 的 “十 "号 表示 推广 性 能 比 平均 性 能 要 好 ,而 “一 "号 表 
示 比 平均 性 能 要 差 。(*“0” 表 示 怡 好 是 平均 性 能 ) ,这 些 符 号 的 尺寸 表示 的 是 “好 ”或 “ 差 ” 的 程度 的 
大 小 。 例 如 ,(a) 图 表示 的 是 分 类 器 的 推广 性 能 在 一 个 小 区 域 比 平均 性 能 好 很 多 ,但 在 其 他 广大 的 
区 域 比 平均 性 能 都 稍微 差 一 点 。 同 样 的 (b) 表 示 的 是 在 一 半 的 区 域 推广 性 能 较 好 ,而 为 一 半 的 性 
能 较 差 的 情况 。 对 问题 的 所 有 地 方 的 推广 性 能 都 好 的 情况 (d) 是 不 可 能 出 现 的 。(e) 只 在 一 个 小 
区 域 中 比 平均 性 能 要 好 ,而 其 他 区 域 都 为 平均 性 能 的 情况 也 是 不 可 能 出 现 的 


‘9.2.2 丑小鸭 定理 


“没有 免费 的 午餐 定理 ”表明 :在 没有 “假设 ?的 前 提 下 ,我们 没有 理由 偏爱 某 一 学 习 或 分 类 算 
法 而 轻视 另外 一 个 。 一 个 类 似 的 定理 研究 的 是 特征 和 模式 的 关系 。 粗 略 地 讲 ， 了 丑小鸭 定理 R 
明 的 是 :在 没有 “假设 ”的 前 提 下 ,也 不 存在 “优越 ?的 或 “最 好 ?的 特征 表达 ,并 且 , 即 使 是 模式 之 间 
的 “相似 ”的 概念 也 “ 隐 含 ”地 依赖 若干 “假设 ” ,不管 该 "假设 "是 正确 的 ,还 是 不 正确 的 。 

由 于 我 们 只 使 用 离散 表示 ,所 以 可 以 使 用 逻辑 表达 式 或 “谓词 "来 描述 一 个 模式 ,与 第 8 章 
的 作法 很 相似 。 如 果 利 用 fi 表述 一 个 二 值 特征 属性 ,那么 一 个 特定 的 模式 可 以 用 谓词 描述 为 
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“f: AND 广 ”, 另 一 个 模式 可 能 被 描述 为 "NOT f，”, 等 等 。 这 样 ,我 们 也 有 包括 模式 本 身 的 谓 
词 表达 式 。 例 如 “x OR x,”°, Al 9-2 表示 怎样 用 Venn 图 来 表述 一 个 模式 。 





Xs 


图 9-2 用 二 值 特征 f: 的 A DRANK x (这 里 d 一 3) ,可 以 绘制 在 Venn 图 中 ,这 个 图 依赖 于 分 类 
问题 本 身 及 其 有 关 的 约束 。 例 如 ,有 是 描述 属性 "有 腿 ” 的 二 值 特征 , fs 是 描述 “有 右 臂 ”的 特征 ,fs 是 “有 
右手 ”。 这 样 ,x 表示 一 个 “有 腿 ” 但 是 没有 “右手 ”和 “ 右 臂 "的 人 ,x 表示 一 个 “有 腿 ” 和 “ 右 苯 ”但 是 没有 
“右手 ”的 人 ,等 等 。 注 意 ,Venn 图 中 含有 了 一 个 真 人 ”的 生物 学 上 的 约束 ,例如 :不 存在 一 个 有 右手 而 无 
右 臂 的 人 。 图 (c) 表 达 了 另外 一 种 生物 学 约束 , 即 , 人 类 眼睛 颜色 是 互 斥 的 ,不 存在 眼睛 颜色 有 两 种 的 人 。 
这 里 的 属性 fis fo , 户 可 能 表示 “棕色 "绿色 ”，“ 蓝 色 ”, 而 模式 x 表示 一 个 人 


下 面 我 们 需要 对 谓词 计数 (counting) ,为 了 清楚 起 见 ,考虑 一 个 特定 的 Venn 图 是 很 有 帮助 
的 ,比如 图 9-3。 这 是 最 普通 的 基于 两 个 特征 的 Venn 图 。 因 为 任何 一 个 AA fs 的 构 型 ,其 实 就 
是 一 个 模式 。 在 这 里 ,谓词 可 以 简单 表示 为 x ,或 稍微 复杂 一 些 , 例 如 “x ORx。 OR x,” FS, 
9-3 ”对 两 个 特征 无 约束 的 Venn 图 ,这 样 所 有 4 种 二 值 属性 向 量 都 可 能 
出 现 








谓词 的 “ 阶 ”+ 是 一 个 谓词 表达 式 所 能 包含 最 简单 或 不 可 再 分 的 元 素 的 数目 。 下 面 表格 表 
示 图 9-3 中 的 1 阶 .2 阶 和 3 阶 谓词 的 Venn 图 。 没 有 显示 出 的 是 一 种 实际 存在 的 阶 数 为 4 的 
459 一 个 谓词 , 即 x, ，… “Xi 的 析 取 式 ， 该 逻辑 值 为 真 (true)。 A n 表示 Venn 图 中 的 区 域 的 总 个 数 


( 即 可 能 的 不 同 模式 的 数目 ) ,那么 > 阶 谓词 一 一 共有 { - ) 个 ,如 下 表 所 示 。 


rank r = | rank r = 2 rank r = 3 


fi AND NOT h fi X] OR Xo OR X3 fi OR fr 

fi AND fh 2 fi XOR fh | Xj OR X2 OR X4 fı OR NOT h 
fa AND NOT fi NOT fo x; OR x3 OR x3 | NOT(f; AND f) 
NOT (fi OR fa) 2 f X? OR X3 OR X4 h OR NOT fı 


NOT(f; AND fo) 
NOT fı 





© 从 技术 上 讲 ， 我 们 应 该 用 集合 的 运算 符 ( 例 如 “U”) 来 表示 Venn 图 的 关系 ,而 不 是 这 里 的 逻辑 OR 等 ,但 为 了 与 本 
书 其 他 内 容 一 致 ,我 们 还 是 选用 后 者 。 
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在 没有 任何 限制 的 条 件 下 ,谓词 总 个 数 为 


r=0 


同样 ,对 于 d= 二 4 的 情况 (图 9-3) ,一 共有 16 种 可 能 谓词 。 而 对 于 图 9-2, 由 于 其 中 的 Venn 图 
中 含有 限制 ,所 以 这 一 公式 不 成 立 。 

现在 我 们 回 到 中 心 的 问题 :在 没有 先 验 信 息 的 前 提 下 ,是否 存 在 一 个 原则 性 的 理由 来 判定 
任意 两 个 不 同 的 模式 , 相 比 于 另外 两 个 不 同 的 模式 ,具有 更 多 (或 更 少 的 ) 相 似 性 呢 ? 一 个 自然 
和 熟悉 的 判定 方法 是 根据 统计 两 个 模式 共享 的 特征 或 属性 的 数目 。 但 是 ,即使 这 种 明显 的 度 
量 也 遇 到 了 概念 上 的 困难 。 

为 了 理解 上 述 困 难 , 首先 来 考虑 一 个 简单 的 例子 。 假定 AA fe aR Rea“ GR” A“ AE 
眼 睹 ”。 如 果 我 们 利用 共享 特征 的 方法 来 度量 相似 程度 , 那么 , 一 个 人 x= (1, 0C CREÆERT 
AR), 与 男 一 个 人 x =(0, I} (只 是 上 村 了 左 眼 ) 具 有 最 大 程度 的 不 同 。 特 别 是 ，x SABHA 
以 及 视力 正常 更 相似 , 有 反而 与 x AAA. 但 是 这 一 结果 显然 不 能 让 人 满意 。 我 们 能 够 很 简单 
地 想像 出 很 多 情况 , 一 个 左 眼 瞎 的 人 “理应 ”与 右 眼 瞎 的 人 更 相似 。 比 如 说 ,对 这 种 人 还 是 允 
许 开 汽 车 的 。 一 个 睹 了 一 只 眼 的 人 显然 与 完全 瞎 的 人 有 本 质 的 不 同 , 全 睹 的 人 是 不 能 开 汽 车 
的 。 

第 二 ,总 是 存在 多 种 方式 可 以 用 来 表示 特征 向 量 或 属性 元 组 。 例 如 在 上 例 中 ,我 们 能 够 用 另外 
的 特征 S a 和 了 o 分 别 表 示 “ 右 有 眼 睹 ”和 “两 只 眼 情况 相同 ”, 那 么 有 4 种 人 可 以 通过 下 表 来 描述 。 


fi fh fi h 
0 ] 


0 


0 
0 
1 
1 1 


Xi 0 
Xə I 0 
X34 0 1 
X4 l l 

当然 还 存在 其 他 的 表示 方式 。 每 种 方式 都 或 多 或 少 的 适合 于 茶 一 特定 问题 。 在 缺少 先 验 
信息 的 条 件 下 ,不 存在 原则 性 的 理由 表明 一 种 表达 比 另 外 一 种 表达 更 好 。 

我 们 现在 必须 面 对 这 样 一 个 问题 : 即 给 定 表达 方式 后 ,对 两 种 模式 的 相似 程度 给 出 一 个 原 
则 性 的 度量 标准 。 在 这 种 条 件 下 , 仅 有 的 一 个 可 行 的 度量 标准 就 是 模式 问 所 共享 的 谓词 数目 
(而 不 是 共享 的 特征 数目 )。 考 虑 两 个 (在 特定 表达 下 ) 不 同 的 模式 x Mx ,其 中 ij KAS 
虑 问题 当中 存在 的 限制 条 件 ( 比 如 那个 Venn 图 ) ,显然 两 个 模式 没有 共享 秩 r=1 的 谓词 。 有 
且 仅 有 一 个 秩 r=2 的 谓词 , 它 是 x 或 x;。 秩 r=3 的 谓词 一 定 包 含 3 个 模式 ,其 中 两 个 是 x 


d — 2 
Ma. PRS d 个 模式 ,因此 x Mx RENE = MRa )=d 一 2 个 。 


2 


d 一 
同样 ,对 于 任意 秩 BIT BERR (TO 


别 取 各 种 秩 时 的 和 


) 个 谓词 ,其 中 2<r<4。 两 个 模式 共享 的 谓词 是 分 


d 一 一 
(5-3) =(1+1)4? = 27°? (6) 


r—2 
注意 关键 性 的 结果 : 式 (6) 与 x; Mx 的 选择 (只 要 它们 是 不 同 的 ) 无 关 。 因 此 我 们 得 到 如 
下 的 结论 :两 个 不 同 的 模式 所 共享 的 谓词 个 数 是 一 个 与 模式 本 身 无 关 的 常数 。 (习题 11) 由 此 


六 人)=d+D=z (5). 
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总 结 到 :如 果 采 用 模式 共 训 的 谓词 个 数 来 判断 相似 程度 ,那么 任何 两 个 不 同 的 模式 都 具有 “ 同 
样 的 相似 程度 "下面 的 定理 中 正式 阐述 了 这 一 点 : 





e 定理 9.2 丑小鸭 定理 (Ugly Duckling)? S058 RERA PRY te SOR EK RR TE E 
两 个 模式 的 ,那么 任意 这 样 两 个 模式 所 共享 的 谓词 的 数目 是 一 个 与 模式 的 选择 无 关 的 常数 。 
此 外 ,如 果 模 式 的 相似 程度 是 基于 两 个 模式 共享 的 谓词 的 总 数 ,那么 任何 两 个 模式 都 是 “等 相 
似 ” 的 。 

概括 来 说 , 导 小 四 定理 闸 述 了 一 些 非常 基础 但 是 经 常 被 忽视 的 事情 :不 存在 与 问题 无 关 的 
“优越 ”的 或 “最 好 ”的 特征 集合 或 属性 集合 。 田 外 ,虽然 上 述 定 理 是 根据 二 值 属性 4 元 组 得 到 
的 ,但 是 对 连续 特征 空间 同样 适用 ,只 要 这 个 空间 可 以 (以 任意 分 辨 率 ) 离 散 化 。 此 定理 使 我 们 
认识 到 :即使 是 两 个 模式 之 间 的 “相似 程度 ”这样 一 个 看 起 来 很 简单 的 概念 ,也 建立 在 依赖 于 问 
题 领域 的 隐 含 “假设 "的 基础 上 。 


9.2.3 最 小 描述 长 度 


有 时 ,人 们 声称 “最 小 描述 长 度 原 理 ”(minimum description length, MDL) 给 出 了 一 个 选择 某 种 
分 类 器 而 非 男 外 一 种 的 正当 理由 。 特 别 是 ,要 求 去 选择 一 个 “简单 ”的 ,而 非 “ 复 杂 ” 的 分 类 器 。 简 单 
而 言 , 这 种 方法 由 在 为 某 种 模式 类 (好 像 是 “信和 号”) 中 的 所 有 成 员 找 到 了 茶 种 不 可 约 的 (inreducia- 
ble) .最 小 的 表达 方式 ;而 个 体 模 式 中 的 所 有 变形 都 被 认为 是 “噪声 *"。 这 种 方法 的 理由 在 于 :通过 适 
当 简 化 模式 ,可 以 使 “信号 ?被 保留 而 “噪声 ”被 忽略 。 由 于 这 个 原理 经 党 被 引用 ,所 以 充分 理解 它 能 
导出 什么 ,不 能 导出 什么 ,以 及 它 与 “没有 免费 的 午餐 定理 ”的 关系 就 十 分 重要 。 为 了 做 到 这 一 点 ,我 
们 首先 要 理解 “算法 复杂 度 ” 的 概念 。 
算法 复杂 度 

“算法 复杂 度 ” 一 一 也 被 称 为 “ 萎 尔 葛 臣 罗 夫 复杂 度 ”, “Kolmogorov-Chaitin @ Ze”, “Jë 
述 复杂 度 ”(descriptional complexity) , “最短 的 程序 长 度 ”(shortest program length) 或 者 “ 算 
ZEA” (algorithmic entropy) , 它 试 图 发 现 一 个 二 进 制 串 的 内 部 复杂 度 。( 事 先 假定 分 类 器 和 模 
式 都 可 以 用 这 样 的 串 描述 )。“ 算 法 复杂 度 ” 的 理解 可 以 用 “通信 ”来 类 比 , 这 也 是 信息 论 的 最 早 
应 用 (附录 A.7)。 如 果 发 送 端 和 接收 端 就 某 种 通信 规范 (specification) 方 法 (比如 一 种 编码 协 
议 或 压缩 技术 ) 达 成 一 致 ,那么 消息 工 可 以 用 >y 来 传输 ,并 解码 给 出 某 种 固定 的 方法 工 ,表示 为 
L(y) 一 x。z 的 传输 代价 就 是 被 传输 的 消息 y 的 长 度 ,也 就 是 |jy| .因此 最 小 代价 就 是 这 样 一 个 


具有 最 小 长 度 的 消息 ,表示 为 也 也 2 

算法 复杂 度 可 以 利用 与 通信 类 似 的 方式 来 定义 ,只 不 过 不 用 固定 的 解码 方法 ,在 这 里 ,我 
们 考虑 在 一 台 * 抽 象 计算 机 ”上 运行 的 程序 。 所 谓 “ 抽 象 计算 机 ”, 就 是 只 定义 功能 (比如 存储 、 
处 理 等 ) ,而 不 考虑 具体 硬件 限制 的 计算 机 器 。 考 虑 一 台 抽 象 计算 机 , 它 将 一 个 二 进 制 串 y 作 
为 输入 程序 ,在 输出 一 个 串 x 后 停机 。 在 这 种 情况 下 ,y 被 认为 是 x 的 一 种 “抽象 编码 ”或 “ 抽 
象 描述 ”。 

一 种 “万 能 ”(universal) 的 描述 应 该 独立 于 “规范 ”(specification) (至 多 只 相差 一 个 加 性 党 





”这 个 定理 的 有 趣 但 奇怪 的 名 称 来 自 下 面 这 段 违 背 直 觉 的 陈述 :假定 相似 度 是 基于 共享 的 谓词 个 数 ,那么 ,一 个 丑 小 
P A 与 一 个 美丽 天 执 B 的 相似 性 ,与 B 同 另 外 一 只 美丽 天 鹅 C 的 相似 性 是 一 样 的 ,假如 它们 的 项 彼此 有 不 同 的 
话 。 
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数 ), 它 不 应 依赖 于 规范 是 否 是 用 C 十 十 ,Lisp ,Java 等 来 实现 的 。 这 样 一 种 描述 允许 我 们 可 靠 
地 对 不 同 的 二 进 制 串 r 和 x: 作 复杂 度 的 比较 。 这 样 的 方法 将 提供 数据 的 内 在 的 固有 的 信息 
量 (inherent information), 即 在 没有 任何 先 验 的 情况 下 ,必须 要 被 传输 的 (没有 任何 元 余 的 ) 数 
据 量 。 一 个 二 进 制 串 r 的 芯 尔 葛 戈 罗 夫 复杂 度 ( 表 示 为 天 (Cz)) 被 定义 为 :能 够 输出 r 的 最 短 
程序 串 y 的 长 度 ( 长 度 以 比特 为 单位 ), 就 是 说 ,在 没有 任何 其 他 数据 的 条 件 下 ,可 以 计算 出 串 
Zz, 然 后 停机 。 形 式 上 ,我 们 写成 


K(x) 一 min[U (y) = x] | (7) 


其 中 品 代 表 一 个 抽象 的 “万 能 图 灵机 ”(universal Turing machine) %# “Al Rit SL” (Turing 
computer)。 就 我 们 的 目的 而 言 ,完全 可 以 说 “图 灵机 ”是 “万 能 "或 “通用 ”的 ,“ 通 用 ”的 意思 是 
指 : 用 它 可 以 实现 任何 算法 和 计算 任何 “可 计算 的 图 数 ”(computable function)。 戈 尔 莫 戈 罗 
夫 复 杂 度 是 关于 的 “不 可 压缩 性 ”(incompressibility) 的 度量 ,与 “最 小 充分 统计 量 ? 类 似 ( 第 3 
章 ), 后 者 是 一 种 最 优 的 描述 某 种 分 布 的 (最 小 的 ) 不 可 压缩 的 度量 。 

考虑 下 面 的 例子 。 假 设 工 由 2 个 “12 组 成 的 串 z= 二 “111111*…1111”, 这 确实 是 个 非常 “ 简 
单 " 的 串 。 如 有 条 要 指明 一 个 可 以 产生 串 z 的 包含 输出 “1” 的 循环 的 通用 程序 ,该 程序 的 长 度 为 
上 比特 ,那么 我 们 至 少 只 需要 log. n 比特 数 就 可 以 保证 循环 ”次 一 一 达到 停机 的 条 件 。 因 此 上 串 
Zz 的 臣 尔 莫 臣 罗 夫 复杂 度 就 是 K(zr) 一 O(logsn)。 下 面 考虑 超越 数 r, 它 的 二 进 制 序列 看 起 来 
是 无 穷 随机 数字 串 “11. 00100100001111110110101010001 .… ”但 是 ,事实 上 ,7 仅 包 含 了 几 个 
比特 的 信息 : 即 可 生成 上 述 串 到 任意 位 数 的 程序 最 小 长 度 。 非 正式 的 说 ,我 们 可 以 认为 7 的 算 
法 复杂 度 是 一 个 常数 ,通常 写成 K(7) 二 O00(1), 它 表示 K(7) 不 会 随 着 需要 位 数 的 增加 而 增长 。 
另 一 个 例子 是 一 个 “真正 ?随机 的 二 进 制 串 , 它 不 能 被 (压缩 ) 表 示 为 更 短 的 串 ; 它 的 算法 复杂 
是 它 的 长 度 的 若干 倍 。 对 于 这 样 的 串 ,我 们 写成 K(x) 二 OC|z|) ,表示 K(xz) 随 工 的 长 度 一 起 
增长 (习题 13 ) 。 
9.2.4 最 小 描述 长 度 原理 

我 们 现在 转向 一 个 人 简单 “朴素 ”的 “最 小 描述 长 度 ” 原 理 , 并 且 介 绍 它 在 模式 识别 中 的 应 用 。 
假设 每 一 类 别 中 的 所 有 成 员 都 共享 部 分 特征 ,但 其 他 特征 都 不 相同 。 于 是 ,模式 识别 右 必 须 在 
忽略 次 要 (或 者 随机 ) 特 征 的 同时 ,试图 学 习 属 于 类 别 本 喘 的 公共 的 或 本 质 的 特性 。 艾 尔 莫 戈 
罗 夫 复杂 度 的 目的 在 于 提供 一 种 “简单 性 ?的 客观 度量 ,并 且 用 于 提供 事物 的 “本 质 ? 特 性 的 描 
述 。 

假设 我 们 要 用 训练 集 了 来 设计 一 个 分 类 器 。 最 小 描述 长 度 C(MDL) 原理 指出 :我 们 必须 使 
模型 的 算法 复杂 度 ,以 及 与 该 模型 相 适 应 的 训练 数据 的 描述 长 度 的 和 最 小 ,也 就 是 

K(h, D) = K(h) + K(D| h) (8) 


因此 我 们 要 寻找 一 个 遵从 h" 一 arg minK hs D KRÆ h ,正如 习题 14 中 所 研究 的 那 


样 。( 这 里 的 “朴素 MDL 原理 ”的 其 他 变 体 对 式 (8) 采 用 了 加 权 求 和 的 形式 。) 实 际 中 ,一 个 分 
类 器 的 算法 复杂 度 要 根据 所 选择 的 抽象 计算 机 的 种 类 来 确定 ,这 意味 着 其 复杂 度 最 多 附加 一 
个 加 性 常数 。 

最 小 描述 长 度 原 理 C(MDL) 一 个 显著 应 用 是 判定 树 分 类 器 的 设计 (第 8 章 )。 在 这 种 情况 
下 ,一 个 模型 疡 用 于 指明 树 及 其 节点 上 的 判决 ;因此 模型 的 算法 复杂 度 与 节点 数 成 比例 。 在 模 
型 中 给 出 的 数据 复杂 度 可 以 根据 数据 的 炉 ( 单 位 为 比特 ) 的 形式 来 表示 , 即 所 有 了 叶 节 点 上 数据 
的 炉 的 加 权 和 和 。 因 此 ,如 果 采 用 基于 焙 的 准则 来 前 枝 这 棵 树 ,那么 必然 隐 含 存在 一 种 全 局 代价 
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准则 , 它 与 最 小 化 式 (8) 的 一 般 形式 是 等 价 的 (上 机 习题 1). 

理论 上 可 以 证 明 , 如 果 有 越 来 越 多 的 数据 (极限 情况 ) ,那么 用 最 小 描述 长 度 原理 设计 的 分 
类 器 能 够 收敛 到 理想 或 真正 的 模型 上 。 这 确实 是 一 个 很 好 的 性 质 。 然 而 , 它 却 无 法 证 明 当 数 
据 有 限时 也 能 获得 更 好 的 性 能 。 因 为 假如 这 样 , 将 明显 违反 “没有 人 免费 的 午餐 定理 ”。 而 且 , 实 
际 情 况 中 要 计算 最 小 描述 长 度 通 常 是 比较 困难 的 ,因为 我 们 不 可 能 聪明 到 可 以 发 现 “ 最 好 ”的 
描述 方法 的 程度 (习题 17)。 假 设 某 个 特定 的 分 类 器 与 一 个 抽象 计算 机 之 间 存 在 对 应 关系 , 那 
么 ,在 这 种 情况 下 ,很 容易 确定 出 可 以 产生 该 分 类 器 所 需要 的 程序 串 的 长 度 , 但 是 它 未 必 是 最 
小 的 串 。 为 了 确定 算法 复杂 度 ,我 们 不 得 不 在 所 有 可 能 产生 该 分 类 器 的 程序 中 执行 一 个 相当 
困难 的 搜索 过 程 。 “ 

最 小 描述 长 度 原 理 可 以 用 贝 叶 斯 的 观点 来 考虑 。 用 目前 的 术语 ,假定 数据 和 “假设 ” 
(hypotheses) 都 是 离散 的 ,那么 贝 叶 斯 公式 为 

P(h)P(Dh) 


最 优 假 设 h* 是 使 后 验 概率 最 大 的 那个 假设 ,也 就 是 
h* = arg max[P(h) P(D\h)] 
= arg max[log, P (h) + log, P (DIA)] mo) 

这 与 我 们 在 第 3 章 中 看 到 的 一 样 。 注 意 到 一 个 串 x 可 用 一 log P(xz) 作 代价 下 界 来 进行 传 
输 或 者 描述 ,正如 香农 最 优 编码 定理 所 规定 的 。 因 此 香农 定理 在 最 小 描述 长 度 ( 式 (8)) 和 贝 叶 
斯 方法 ( 式 (10)) 之 间架 设 了 一 座 桥梁 。 最 小 描述 长 度 原理 表明 :更 偏爱 较 简 单 的 模型 (有 较 小 
的 算法 复杂 度 ) ,这 相当 增加 了 往 “ 简 单 性 ”方向 的 偏差 (bias)。 在 实践 中 ,用 描述 长 度 来 表示 
先 验 信息 ,要 比 用 分 布 函数 要 容易 的 多 (习题 16)。 在 9. 3 节 中 我 们 将 会 再 次 讨论 有 关 问 题 ， 
特别 是 关于 “模型 简化 ”和 “数据 拟 合 ”这 个 “偏差 -方差 两 难 问题 ”的 折 中 。 

实验 发 现 , 基 于 MDL 原理 设计 的 分 类 器 对 很 多 问题 能 工作 的 很 好 。 如 同 前 面 提 到 的 ,该 
原理 通过 对 先 验 信息 施加 朝向 “简单 性 模型 ”方向 的 偏差 来 起 作用 。 然 而 ,在 9. 2.5 节 中 我 们 
将 会 看 到 ,使 得 上 述 实 验 大 量 成 功 背 后 的 理由 并 非 是 普遍 的 。 

MDL 原理 的 最 大 好 处 之 一 是 它 提 供 了 一 种 计算 上 明确 的 方法 ,用 于 折 中 模型 的 复杂 程度 
和 数据 的 拟 合 程度 。 对 一 些 启 发 式 的 方法 ,比如 剪 枝 的 神经 网 络 , 将 网 络 的 算法 复杂 度 ( 比 如 
单元 或 者 权 的 数目 ) ,和 相应 于 模型 的 数据 的 炉 , 进 行 比 较 是 一 件 困难 的 事 。 
9.2.5 避免 过 拟 合 及 Occam 剃刀 原理 

在 模式 分 类 器 的 讨论 中 ,我 们 曾 提 到 可 以 利用 “规则 化 >“ 剪 枝 ”“ 征 罚 项 ?以 及 “最 小 化 描 
述 长 度 ” 等 技术 来 避免 出 现 “ 过 拟 合 ”.。“ 没 有 免费 的 午餐 ”定理 对 上 述 技 术 提出 了 质疑 。 如 果 
根本 不 存在 与 问题 无 关 的 理由 ,使 得 我 们 可 以 偏爱 一 种 算法 而 不 是 另 一 种 ,那么 ,为 什么 我 们 
又 普遍 提倡 “避免 过 拟 合 ” 呢 ?” 或 者 说 ,对 于 给 定 的 训练 误差 ,为 什么 我 们 一 般 会 “偏爱 "具有 和 较 
少 特征 和 参数 的 简单 的 分 类 器 呢 ? 

事实 上 ,无 论 是 “避免 过 拟 合 ”还 是 “最 小 化 描述 长 度 ” 都 没有 与 生 俱 来 的 优越 性 ;这 类 技术 
相当 于 对 分 类 器 的 形式 或 者 参数 的 形式 施加 一 种 “偏差 ”, 或 者 说 是 “偏爱 ”。 它 们 之 所 以 在 实 
践 中 起 作用 ,仅仅 是 因为 这 恰好 与 它们 所 要 解决 的 问题 “匹配 ?”。 成 功 的 经 验 取 决 于 特定 的 学 
习 算 法 与 实际 问题 “匹配 ”, 而 不 是 “避免 过 拟 合 ”技术 带 来 的 好 处 。 有 时 避免 过 拟 合 ”的 作法 
反而 会 导致 更 差 的 性 能 .。“ 避 免 过 拟 合 ”的 效果 也 依赖 于 具体 表达 方式 的 选择 ;如 果 特 征 空间 
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锌 映射 到 一 个 新 的 .形式 上 等 价 的 空间 ,同样 的 “避免 过 拟 合 ”技术 会 导致 不 同 的 结果 。 

根据 “没有 免费 的 午餐 定理 ”的 负面 结论 ,我们 可 以 更 加 深入 的 探究 MDL 原理 的 频繁 “成 
功 ” 经 验 , 以 及 更 加 一 般 化 的 哲学 原则 Occam 剃刀 原理 (Occam’”s razor)。 在 Occam 剃刀 
原理 最 初 的 形式 中 , 它 仅 仅 说 明 :除非 必要 , “实体 "(或 “解释 ”) 不 应 该 随便 增加 。 但 在 模式 识 
别 中 , 它 被 认为 是 一 种 忠告 , 即 设计 者 不 应 该 选用 比 “ 必 要 ”更 加 复杂 的 分 类 器 ,其 中 所 请“ 必 
要 ”是 由 训练 数据 的 拟 合 情 况 所 决定 的 。“ 没 有 免费 的 午餐 定理 ”已 经 证 明了 “简单 ”的 分 类 器 
(或 者 较 “ 复 杂 ” 的 ) 本 身 并 没有 任何 优越 性 一 一 “简单 ”分 类 器 既 不 是 独一无二 的 ,也 并 非 普 遍 
的 有 效 。 

Occam 的 着 刀 原 理 的 普遍 运用 和 频繁 成 功 仅仅 暗示 了 :到 目前 为 止 ,我 们 遇 到 的 各 类 问 
题 都 具有 某 种 独特 的 性 质 。 我 们 “偏爱 ?用 简单 的 分 类 器 来 解决 问题 的 理由 是 什么 ?一 个 合理 
的 猜测 是 :长 期 的 进化 过 程 , 使 我 们 自身 的 “模式 识别 仪器 ”面临 强大 的 (自然 ) 选 择 的 压 
力 一 一 要 求 执行 更 简单 的 计算 .需要 更 少 的 神经 元 .花费 更 短 的 时 间 ,等 等 ,导致 我 们 的 分 类 系 
统 趋向 于 “简单 ”的 方案 。 我 们 很 可 能 忽视 了 那些 Occam 的 剃刀 原理 不 成 立 的 问题 。 类 似 的 ， 
研究 人 员 在 考察 更 复杂 的 算法 之 前 ,首先 会 倾向 于 研究 简单 的 算法 。 例 如 ,人 们 首先 研究 了 感 
知 促 ,然后 到 多 层 神 经 网 络 , 到 剪 枝 的 神经 网 络 ,到 拓扑 结构 可 学 习 的 网 络 , 直 到 神经 网 络 与 规 
则 技术 的 综合 方法 等 等 ,每 个 算法 都 比 它 的 前 任 更 加 复杂 。 每 种 方法 都 会 解决 一 些 问题 ,而 不 
是 那些 “更 复杂 ”的 方法 。 比 如 基本 的 感知 器 就 无 法 识别 光学 字符 ;一 个 简单 的 三 层 神 经 网 络 
人 不足 已 识别 与 说 话 人 无 关 的 语音 信和 号。 因此 我 们 的 设计 方法 论 本 身 已经 强加 了 对 “简单 ”分 类 
从 的 俩 癌 ; 当 分 类 器 已 经 "足够 好 ”时 ,我 们 通常 会 马上 停止 研究 。 所 谓 的 “满意 原则 ”(satisfic- 
ing), 即 实现 一 个 “合适 ”的 解 ( 尽 管 未 必 是 “最 优 ”的 解 ) 已 经 足够 了 。 这 (可 能 ) 是 许多 实际 模 
式 识 别 系统 甚至 人 类 认 知 系统 成 功 的 基础 。 

Occam 剃刀 原理 成 立 的 另外 一 个 理由 来 自 于 对 学 习 算 法 我 们 可 能 非常 需要 和 期 望 的 一 
个 性 质 。 如 果 假 设 从 平均 效果 来 看 ,加 入 更 多 的 训练 数据 不 会 使 一 个 分 类 器 的 推广 性 能 下 降 ， 
那么 器 可 以 推导 出 一 款 Occam 剃刀 原理 。 不 过 请 注意 ,上 述 期 望 的 性 质 等 价 于 给 目标 函数 强 
加 了 某 种 非 均 匀 的 先 验 信 息 ; 尽 管 我 们 确实 希望 拥有 上 述 性 质 ,但 它 毕 竟 只 是 一 个 前 提 假 设 ， 
而 无 法 进行 证 明 。 最 后 要 说 明 的 是 ,“ 没 有 免费 的 午餐 定理 ”还 暗示 我 们 不 可 能 用 训练 数据 实 
现 这 样 的 一 个 系统 : 即 利用 此 系统 ,我 们 可 以 将 那些 该 分 类 器 可 以 很 好 推广 的 新 间 题 与 那些 不 
能 很 好 推广 的 新 问题 区 分 开 来 。 


9.3 偏差 和 方差 


我 们 已 经 知道 如 果 对 问题 的 类 别 概 率 不 作 任何 限制 ,那么 是 没有 普 适 的 最 优 分 类 器 的 。 
因此 ,对 任何 给 定 的 问题 ,实践 者 必须 做 好 充分 的 准备 去 研究 探索 大 量 的 方法 或 模型 。 下 面 我 
们 将 定义 两 种 度量 ,用 于 测量 学 习 算法 与 给 定 分 类 问题 的 “匹配 ?和 “校准 ”程度 ,这 就 是 “偏差 
AMI”. “偏差 "度量 的 是 匹配 的 “准确 性 ?和 “质量 ”: 一 个 高 的 偏差 意味 着 一 个 坏 的 匹配 。 而 
“方差 "度量 的 是 匹配 的 “精确 性 ”和 “特定 性 ”; 一 个 高 的 方差 意味 着 一 个 弱 匹 配 。 设 计 者 可 以 
调整 分 类 句 的 偏差 和 方差 ,但 是 重要 的 “偏差 -方差 关系 ”表明 这 两 项 是 非 独 立 的 ;事实 上 ,对 于 
给 定 的 均 方 误差 ,它们 服从 “守恒 律 ” 的 形式 。 虽 然 这 样 ,假如 有 一 点 先 验 知识 或 者 甚至 仅 赁 
运气 ,也 可 以 建造 出 具有 不 同 均 方 误差 的 分 类 器 。 





O Fate :更 准确 的 类 比 是 物理 学 中 的 “ 测 不 准 关系 ?或 “互补 律 ”。 
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9.3.1 回归 中 的 偏差 和 方差 关系 

偏差 和 方差 关系 在 回归 和 曲线 拟 合 的 场合 中 是 很 容易 理解 的 。 假 设 存在 一 个 真实 (但 是 未 
知 ) 的 水 数 FCx) , 它 的 输出 是 带 有 噪声 的 连续 值 。 我 们 试图 用 由 F(。) 产 生 的 集合 DD 中 的 n 个 样 
本 来 估计 F(，)。 待 估计 的 回归 方程 表示 为 g(x;D)。 我 们 感 兴趣 的 是 台 近 性 能 对 训练 集 DD 的 依 
赖 关 系 。 由 于 数据 的 选取 随机 性 ,对 于 有 限 大 小 的 某 些 数据 集 逼 近 性 能 可 能 会 很 好 ,但 是 对 其 他 
风 样 大 小 的 数据 集 ,该 和 逼近 性 能 可 能 会 很 差 。 估 计算 子 的 有 效 性 的 自然 度量 可 以 用 偏离 最 优 情 
况 的 均 方 误差 来 表示 ,也 即 我 们 对 所 有 大 小 为 n 的 训练 集 力 求 平均 ,得 到 (习题 18) 


Ep [(g(x; D) — F(x))*] 


= (Enlg0% D) ~ FON)? + gn [0 D) ~ gnlets DD" ay 
Saaana aa” 
偏差 KE 


右边 的 第 一 项 就 是 “偏差 (平方 ) ,代表 的 是 期 望 值 和 真实 值 (一 般 情况 下 未 知 ) 之 间 的 差 
异 ; 第 二 项 是 “方差 ?项 。 这 样 ,一 个 小 的 “偏差 意味 着 从 平均 意义 上 来 说 ,我 们 可 以 从 刀 中 淮 
确 的 估计 出 F(.)。 另 外 ,一 个 小 的 “方差 ”意味 着 F(. ) 的 估计 并 不 随 训练 集 的 波动 而 有 发 生 
较 大 改变 。 即 使 估计 算 子 是 无 偏 的 ( 即 ,期 望 值 等 于 真实 值 ) ,由 于 方差 项 的 原因 ,也 有 可 能 出 
现 很 大 的 均 方 误差 。 

式 (11) 表 明 均 方 误差 可 以 用 偏差 项 和 方差 项 的 和 的 形式 来 表示 。“ 偏 差 和 方差 两 难 ” 或 者 
“偏差 和 方差 折 中 ”是 一 个 很 普遍 的 现象 :一 个 算法 如 果 逐 渐 提 高 对 训练 数据 的 适应 性 (比如 ， 
设计 更 多 的 自由 参数 ) ,那么 它 将 趋向 于 更 小 的 偏差 ,但 是 会 导致 更 高 方差 。 不 同 种 类 的 回归 
方程 g(x; D) ;比如 线性 的 、 二 次 型 的 .混合 高 斯 的 ,等 等 ,将 有 不 同 的 总 体 误 差 。 尽 管 如 此 , 它 
们 仍然 服从 式 (11)。 

举 个 例子 ,假设 真实 的 目标 方程 FCz) 是 一 个 有 了 上品 声 的 一 元 三 次 多 项 式 , 如 图 9-4 所 示 。 
我 们 试图 基于 采样 训练 集 DD 来 估计 这 个 方程 。 图 中 (a) 列 表示 的 是 一 个 很 差 的 估计 g(x), 它 
采用 一 个 固定 的 独立 于 训练 数据 的 线性 方程 。 对 于 从 FCz) 中 采样 的 含有 噪声 的 不 同 训练 集 ， 
它 都 是 固定 不 变 的 。 最 下 方 的 图 给 出 了 基于 式 (11) 的 均 方 误差 的 直方 图 。 图 中 显示 了 一 个 尖 
峰 , 其 位 置 有 相当 大 的 误差 ,表明 这 个 估计 算 子 太 差 了 ,存在 很 高 的 偏差 ,但 是 ,这 个 固定 的 模 
型 的 估计 方差 却 为 零 。(b) 列 也 是 固定 的 线性 模型 ,但 碰巧 它 是 F(x) 的 一 个 较 好 的 估计 。 它 
同样 也 有 一 个 零 方差 ,但 它 的 偏差 要 比 (a) 列 中 的 那个 模型 要 小 一 些 。 大 概 设计 者 为 了 得 到 这 
个 改善 后 的 估计 ,利用 了 F(z) 的 一 些 先 验 知识 。 

(c) 列 中 的 模型 是 一 个 系数 可 训练 的 三 次 曲线 ;如 果 刀 中 包括 无 穷 多 个 训练 点 ,那么 它 能 
精确 地 学 习 给 定 的 F(Cz)。 注 意 到 , 它 为 图 中 每 个 训练 集合 找到 的 匹配 都 十 分 好 ,因此 偏差 很 
小 ,如 最 下 方 的 图 所 示 。(d) 列 的 模型 对 < 是 线性 的 ,但 是 它 的 斜率 和 截 距 是 由 训练 数据 确定 
的 。 基 于 此 ,(d) 列 中 的 模型 要 比 (ay 列 和 (b) 列 中 的 模型 的 偏差 小 。 

总 的 来 说 ,对 给 定 的 目标 方程 F(x) ,如果 候 选 模 型 的 参数 很 多 (通常 产生 较 小 的 偏差 ) , 那 
么 它 会 很 好 地 拟 合 数据 ,但 是 会 导致 较 高 的 方差 。 相 反 地 ,如 果 这 个 模型 参数 较 少 (通常 对 应 
较 大 的 偏差 ) ,那么 数据 拟 合 性 能 将 不 会 特别 好 ,但 拟 合 的 程度 对 于 不 同 的 数据 集 变 化 不 会 太 
大 ( 较 低 的 方差 );。 获 得 较 小 偏差 和 较 小 方差 的 最 好 方法 是 尽量 了 解 目标 方程 的 先 验 信息 。 事 
实 上 ,我 们 永远 不 可 能 同时 得 到 零 偏 差 和 零 方差 ;当然 惟一 的 一 种 例外 情况 是 这 样 的 一 个 学 习 
问题 , 即 问题 的 答案 是 我 们 事先 已 知 的 。 此 外 ,只 要 模型 足够 一 般 ,以 至 于 有 能 力 表 达 目 标 方 
程 ,那么 采用 大 量 的 训练 数据 将 会 使 性 能 得 到 改善 。 对 偏差 和 方差 关系 的 考察 有 助 于 解释 我 
们 如 下 作法 的 理由 , 即 尽 可 能 地 去 寻找 关于 解 的 形式 的 精确 的 先 验 信息 ,以 及 利用 尽 可 能 多 的 
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训练 样本 。 学 习 算 法 与 给 定 问 题 的 匹配 情况 是 至 关 重 要 的 。 
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图 9-4 偏差 和 方差 两 难 问题 可 以 在 回归 分 析 领 域 中 清楚 地 图 示 。 每 一 列 对 应 一 个 不 同 的 模型 ， 
每 一 行 表示 从 含有 噪声 的 真实 函数 F(z) 中 随机 采样 的 不 同 的 训练 集 刀 ,( 大 小 均 为 x 二 6)。 基 于 
式 (11) 算 出 的 均 方 误差 E= EDLC8(Cz) 一 F(z))2] 的 概率 函数 示 于 下 方 的 图 。(a) 列 示 出 的 是 一 个 很 差 
的 模型 :一 个 与 训练 集 无 关 的 参数 固定 的 线性 模型 。 该 模型 有 很 大 的 偏差 ,但 方差 为 零 。(b) 列 示 出 的 是 一 
有 些 改进 的 线性 模型 ,尽管 其 参数 也 固定 ,也 与 训练 集 无 关 ,但 是 它 储 巧 有 较 小 的 偏差 , 且 方 差 也 为 零 。(c) 列 是 
一 个 三 次 模型 ,其 中 的 参数 在 均 方 误差 意义 上 被 训练 使 得 数据 可 以 很 好 的 拟 合 。 该 模型 有 低 的 偏差 和 中 等 程 
度 的 方差 。(d) 列 采用 参数 可 调 的 线性 模型 ,并 且 和 参数 已 经 过 训练 ,该 模型 有 中 等 偏差 和 中 等 的 方差 。 如 果 训 
练 集中 样本 个 数 a 一 co .那么 , 列 (c) 模 型 的 偏差 可 以 非常 小 (仅仅 由 随机 噪声 引起 。) 但 (d) 列 却 不 然 。 随 着 n 
co, APA ABA TEMS EES 


9.3.2 分 类 中 的 偏差 和 方差 关系 
化 回归 分 析 中 ,理解 偏差 和 方差 的 分 解 和 两 难 问题 是 很 简单 的 事 。 不 过 ,我 们 更 感 兴 趣 的 
是 它们 在 分 类 中 的 意义 ,这 多 少 有 些 复杂 。 在 一 个 两 类 分 类 问题 中 ,我 们 令 目 标 ( 判 别 ) 函 数 的 
值 为 0 或 者 十 1, 也 就 是 
F(x) = Pr[y = 1[x] = 1 — Pr[y = Ox] (12) 


初步 考虑 ,我 们 看 到 回归 中 的 均 方 误差 图 数 ( 式 (11)) 并 不 适合 分 类 问题 。 毕 竟 ,即使 在 拟 合 的 
均 方 误差 很 差 的 情况 下 ,也 可 能 得 到 精确 的 分 类 ,其 至 有 可 能 达到 最 小 ( 贝 叶 斯 ) 误 差 。 这 是 因 
为 采用 0-1 损失 晴 数 的 判别 规则 总 是 选择 最 大 的 后 验 概率 PCwi |x) ,而 不 在 乎 它 究 竞 大 了 多 
少 。 不 过 ,通过 考虑 y 的 数学 期 望 ,我 们 也 可 以 将 分 类 纳入 前 面 看 到 的 回归 的 框架 中 。 为 此 ， 
考虑 如 下 一 个 判别 函数 : 
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其 中 ee 是 一 个 零 均 值 的 随机 变量 。 简 单 起 见 ,假设 它 是 一 个 方差 的 中 心 二 项 分 布 。 目标 函 数 
于 是 可 以 写成 


F(x) = ELy|x] (14) 
现在 的 目的 是 要 找到 估计 eap) ,使 均 方 误差 最 小 ,如 式 (11) 一 样 。 
Ep[(g(x; D) — y)’] (15) 


这 样 ,使 用 9. 3.1 节 中 的 回归 方法 就 得 到 了 可 以 用 于 分 类 的 估计 g(x; D). 

为 简单 起 见 ,假设 先 验 概率 相等 ,PC ) 王 PC ) 一 0.5, 那 么 贝 叶 斯 判决 门限 就 是 17/2， 而 
判决 边界 是 所 有 满足 F(x) =1/2 的 点 的 集合 。 对 一 个 给 定 的 训练 集 DD, 如果 分 类 错误 率 
PrLg(x;D) 二 yj 对 所 有 的 点 x 求 平均 后 ,能 符合 贝 叶 斯 判 据 : 

Pr[g(x; D) = y] = Prfyg (x) Æ y] = min[ F(x), 1 — F(x)] (16) 
那么 我 们 就 真正 得 到 了 最 小 误差 。 如 果 不 是 这 样 , 那 么 预测 将 导致 增 误 差 的 增加 : 
Pr{g(x; D)] = max[F (x), 1 — F(x)] 
= |2F (x) — 1| + Pr[yg(x) = y] 

通过 对 大 小 为 n 的 所 有 数据 集 求 平均 得 到 ， 

Pr[g(x; D) # y] = |2F (x) — llPrlg(x; D) A yg] + Prlys £ y] (18) 
式 (18) 表 明 分 类 错误 率 与 PrleGxs D)Axy,ISREKMKA. CDURA MRE“ ARIRE”, 
即 对 最 优 ( 册 叶 斯 7) 判决 边 界 估计 的 不 正确 度 (习题 19) 。 

由 于 训练 集中 存在 随机 波动 ,边界 误差 将 依赖 于 pC(g (x; DD)), 即 在 给 定 的 训练 集 情况 
下 获得 特定 的 判别 隆 数 估计 的 概率 密度 。 该 误差 也 就 是 贝 叶 斯 判决 值 为 1/2 的 对 边 的 拖 尾 的 
面积 ,正如 第 2 章 看 到 的 那样 。 


(17) 


/plg(x; D))dg F(x < 1/2 
2 


L/ 
Pr[g(x; D) Æ yg] = 1/2 (19) 


f plex; D)) dg F(x) = 1/2 


如 果 做 一 个 简便 的 假定 , 即 pea: 罗 )) 是 高 斯 函数 ,于 是 发 现 ( 习 题 20) 
Ep[g(x; D)] — | 


Prig(x; D) Æ yg] = © [sent 09 = /i 


(20) 
= $| SgnlF (x) — 1/2]lEplg(«; D)} — 1/2) Varlg (x; D" | 
人 
边界 偏差 方差 
其 中 
pfr] = -元 Jeau = sl — erf(t /V2)] (21) 
JT 


erfl + jj] 是 熟知 的 误差 函数 (附录 A. 5). 
由 上 ,我 们 已 经 将 “边界 误差 ”(boundary error) 表 示 成 了 “边界 偏差 "(boundary bias) 项 和 
“方差 ”项 的 组 合 ,类似 于 回归 中 的 偏差 -方差 关系 ( 式 (11))。 式 (20) 显 示 了 边界 误差 中 的 “ 方 
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差 ” 项 对 “边界 偏差 "项 的 关系 是 高 度 非 线 性 的 。 而 且 当 “方差 "很 小 时 ,对 “边界 偏差 ”的 符号 将 
十 分 敏感 。 回 归 中 偏差 (平方 ) 和 方差 服从 加 性 关系 ,而 对 分 类 来 说 ,它们 的 关系 是 非 线性 乘 性 
的 。 边 者 仿 差 的 符号 影响 了 方差 在 误差 中 的 作用 。 出 于 这 个 理由 ,一 般 来 说 ,小 的 “方差 ”对 于 
精确 分 类 是 重要 的 ,而 小 的 “边界 偏差 ? 则 不 是 。 或 者 换 一 种 方式 说 ,在 分 类 时 ,方差 ?通常 支 
KE 边界 俩 差 ”。 这 意味 着 在 实践 中 ,只 要 能 保持 方差 很 小 ,就 不 必 特 别 在 意 估计 是 否 有 偏 。 
很 多 调整 分 类 句 的 特殊 方法 一 一 例如 , 剪 枝 神经 网 络 或 判定 树 , 调 节 自 由 参数 的 个 数 ,等 
等 一 一 都 是 通过 调整 分 类 器 的 偏差 和 方差 。 在 9.5 节 中 我 们 将 会 讨论 适用 各 种 分 类 器 的 其 他 
一 些 方法 。 与 回归 中 的 偏差 和 方差 两 难 问题 类 似 的 是 , 随 着 分 类 器 对 训练 样本 适应 性 的 提高 
(比如 采用 更 多 的 自由 参数 ) ,可 以 获得 更 小 的 方差 ,然而 有 更 大 的 方差 。 

作为 分 类 中 偏差 和 方差 的 示例 ,我 们 考虑 一 个 简单 的 两 类 问题 ,其 中 样本 是 从 二 维 高 斯 分 
布 中 抽取 出 来 的 ,每 类 都 用 向 量 参 数 化 为 palo) ~N, L), i =1,2. XHARRA H 
形 的 协 方差 ,如 图 9-5 的 顶部 所 示 。 对 于 每 个 种 类 ,我 们 只 有 几 个 样 木 ,并 根据 最 大 似 然 准则 
用 3 种 不 同 的 高 斯 模型 来 估计 参数 。(a) 列 显示 的 是 最 普通 的 高 斯 分 类 器 ;每 个 分 量 分 布 都 有 
任意 的 协 方 差 矩阵 。(b) 列 显示 的 是 各 分 量具 有 对 角形 协 方差 的 分 类 器 。(c) 列 显示 的 是 限制 
最 强 的 模型 :其 协 方差 等 于 单位 阵 , 即 圆 形 对 称 高 斯 分 布 。 图 中 左边 的 列 对 应 了 较 小 的 偏差， 
而 右边 的 列 对 应 较 大 的 偏差 。 

图 9-5 分 类 中 的 (边界 ) 偏 差 和 方差 折 中 关系 可 





以 用 二 维 高 斯 分 布 问题 来 图 示 。 顶 部 的 图 示 出 了 as So Bil 
真实 的 分 布 和 对 应 的 贝 叶 斯 判决 边界 。 中 间 的 3 F 

个 图 是 不 同 的 分 类 边界 的 学 习 结果 。 每 行 都 对 应 i “sa 站 
一 种 从 真实 分 布 中 随机 选 出 的 大 小 为 8 的 训练 集 。 mr) g. (exe ) s-(!°) 
(a) 列 用 的 是 任意 的 高 斯 分 布 模型 ,并 采用 ML 法 E 偏差 高 
训练 。 其 对 不 同 的 训练 集 的 判决 边界 很 不 相同 , 意 ae 3 i 

味 着 本 模型 有 较 大 的 方差 。 而 (b) 列 对 应 于 具有 对 w Lat Laii 


角 化 协 方差 矩阵 的 高 斯 模型 , 它 的 判决 边界 对 不 同 
行 的 差异 就 小 一 些 , 说 明 其 方差 较 小 。(c) 列 则 是 r ne 
用 一 个 具有 单位 阵 协 方差 的 高 斯 模型 ( 即 线性 模 ` ' i 
型 ) 拟 合 数据 的 结果 。 这 里 ,不 同行 的 判决 边界 几 vd. Å y Aly Op 
乎 相同 ,说 明 它 的 方差 很 小 | > > 
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图 9-5 中 的 每 一 行 代表 一 个 不 同 的 从 真实 分 布 (顶部 所 示 ) 中 随机 选取 的 训练 集 和 由 此 产 
生 的 分 类 器 。 注 意 到 在 高 偏差 的 情况 下 , 绝 大 多 数 的 特征 点 都 能 正确 分 类 ,而 与 特定 的 训练 集 
无 关 ( 即 ,具有 低 的 方差 ), 但 是 在 小 偏差 的 情况 下 ,很 多 点 的 分 类 情况 都 改变 了 (对 应 于 有 高 的 
方差 ) 。 一 般 而 言 ,得 到 小 偏差 的 代价 是 高 的 方差 ,它们 之 间 的 关系 是 非 线性 乘 性 的 。 

在 图 的 底部 ,3 个 密度 图 显示 了 判决 边界 的 位 置 是 怎样 随 着 训练 集 的 不 同 而 改变 的 。 最 
左边 的 密度 图 显示 了 一 个 非常 宽 的 分 布 (高 的 方差 ) 。 最 右边 的 图 显示 了 一 个 罕 而 尖峰 的 分 布 
( 低 的 方差 )。 为 了 可 视 化 的 显示 偏差 ,想像 我 们 对 所 有 可 能 的 数据 集运 行 学 习 算法 而 得 到 判 
决 边界 ,并 进行 空间 平均 。 对 于 最 左边 的 算法 来 说 ,这 些 边 界 的 平均 将 会 等 于 真实 的 判决 边 
界 一 一 意味 着 这 个 算法 没有 偏差 。 而 最 右边 的 平均 会 是 一 条 垂 线 ,因此 有 较 大 的 边界 误 
差 一 一 这 是 3 个 算法 中 偏差 最 大 的 算法 。 推 广 性 错误 的 分 布 已 显示 在 底部 。 

对 于 给 定 的 偏差 ,方差 将 会 随 着 ”的 增加 而 减 小 。 自 然 的 ,如 果 我 们 采用 一 个 非常 大 的 样本 
集 (>ce) 进 行 训练 , 则 所 有 的 误差 分 布 都 会 变 得 非常 窗 , 并 且 移 到 较 小 的 已 值 上 。 如 果 一 个 模 
型 足够 有 能 力 表达 一 个 最 优 判 决 边界 ,那么 它 的 错误 分 布 在 n 非常 大 的 情况 下 会 逼近 于 一 个 在 
E 二 Es( 贝 叶 斯 误差 ) 处 的 6 函数。 如 同上 面 提 及 的 ,为 了 得 到 所 需要 较 小 的 推广 误差 ,小 的 方差 
要 比 小 的 偏差 要 重要 的 多 。 而 要 得 到 理想 的 零 偏差 和 零 方 差 的 惟一 方法 就 是 事先 就 知道 真实 的 
模型 (或 者 是 极度 幸运 的 猜 中 ) ,但 这 种 情况 下 已 经 根本 不 需要 任何 学 习 。 偏 差 和 方差 可 以 利用 
大 的 训练 集 和 对 F(x) 的 形式 的 精确 的 先 验 知识 来 降低 。 而 且 , 随 着 n 的 增 大 ,必须 在 模型 g 中 
添加 更 多 的 参数 ,这 样 才能 使 数据 得 到 拟 合 ( 减 小 偏差 )。 为 了 基于 有 限 的 训练 集 得 到 最 好 的 分 
类 ,有 必要 得 到 与 真实 分 布 (未 知 的 ) 的 形式 相 匹配 的 模型 ;这 通常 需要 先 验 知识 。 


9.4 统计 量 估计 中 的 重 采 样 技术 
当 我 们 对 一 个 新 的 具有 未 知 概率 分 布 的 模式 识别 问题 应 用 某 些 学 习 算 法 时 ,如 何 才 能 确 
定 其 偏差 和 方差 ? 图 9-4 和 图 9-5 中 暗示 了 一 种 使 用 多 个 样本 的 方法 ,其 灵感 源 自 正规 的 “ 重 


采样 技术。 本 节 中 ,我们 将 专门 讨论 这 种 方法 。 之 后 , 仍 将 回 到 最 终 目标 上 来 ,即使 用 “ 重 采 
样 ” 技 术 来 提高 分 类 器 的 准确 率 (9.5 节 )。 


9.4.1 刀 切 法 (jackknife ) 


我 们 首先 来 看 “ 重 采 样 技术 ”如 何 能 得 到 一 个 更 具有 信息 的 一 般 统 计量 的 估计 。 假 设 有 -- 
个 大 小 为 n 的 样本 集 力 ,其 中 的 样本 点 GE 一 1 都 服从 一 个 一 维 分 布 。 那 么 ,我 们 所 熟 
悉 的 对 于 均值 的 估计 就 是 


X; (22) 
类 似 地 ,对 估计 均值 的 精度 的 度量 就 是 样本 方差 ,定义 为 
` 1 4 A 

62 = 5 2 — fi)’ (23) 

假设 我 们 实际 感 兴趣 的 是 中 值 点 ,也 就 是 说 ,分 布 中 的 一 半 的 点 比 该 点 大 ,而 另 一 半 比 该 

点 小 。 尽 管 我 们 可 以 显 式 地 求 得 这 个 点 ,但 是 ,并 没有 一 种 类 似 于 式 (23) 的 直接 的 推广 ,使 得 


我 们 可 以 预测 中 值 点 估计 的 误差 或 散布 程度 。 同 样 的 困难 也 存在 于 其 他 形式 的 统计 量 的 估计 
中 ,比如 “ 模 态 ” 估 计 ( 即 数据 集中 最 具 代 表 性 的 具有 最 大 频率 的 点 ) ,25% 分 位 点 等 。“ 刀 切 法 ” 
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Cjackknife)“ 和 “自助 法 ”(bootstrap) 是 两 种 最 流行 并 且 具 有 理论 基础 的 重 采样 方法 ,能 够 对 


任意 的 统计 量 , 作 出 类 似 式 (22) 和 式 (23) 的 推广 。 
在 重 采 样 理论 中 ,我们 经 常 使 用 这 样 的 统计 量 : 即 在 计算 时 ,故意 剩余 (不 用 ) 某 一 个 样本 
点 。 可 以 用 特殊 的 下 标 来 表示 这 个 技巧 。 例 如 ,“ 留 一 法 ”均值 估计 就 是 


n 


] nX — X; 
mo = —— Dox = (24) 


也 就 是 说 ,这 样 定义 的 样本 均值 去 控 了 第 i 个 样本 。 下 面 , 我 们 定义 均值 ( 指 真实 的 均值 ) 的 
“ 刀 切 法 "估计 为 





| n 
HO = © X uo (25) 
i=l 


也 就 是 说 ,均值 的 刀 切 法 估计 被 定义 为 各 个 “ 留 一 法 ”均值 的 平均 。 容 易 证 明 , 均 值 的 传统 估计 
就 等 于 均值 的 刀 切 法 估计 , 即 忆 = (习题 23)。 类 似 地 , 刀 切 法 估计 的 方差 服从 
— | 


a 1 . 
Var[ i] = 一 一 》 (ULD — uo)? (26) 
i=] 


应 用 于 均值 , 刀 切 法 方差 估计 就 等 价 于 式 (23) 的 传统 方差 (习题 26). 
把 方差 的 估计 写成 式 (26) 的 形式 的 主要 好 处 是 , 它 可 以 推广 到 任意 的 其 他 估计 算 子 6 , 比 


如 中 值 ,25% 分 位 点 ,或 者 模 态 。 具 体 过 程 为 ,首先 用 “ 留 一 法 ”计算 统计 量 ,然后 用 

Â = ÊC, Xa, es Xizi Kitty Xn) (27) 
代替 pp FFAG. 代替 (25) 和 (26) 式 中 wo. 
刀 切 法 偏差 估计 


这 里 的 “偏差 > 的 概念 要 比 9. 3 节 中 所 描述 的 更 为 广义 。 事 实 上 ,这 一 概念 可 以 应 用 于 任 
何 统计 量 的 估计 中 。 这 里 我 们 定义 估计 算 子 9 的 “偏差 ”为 真实 值 和 期 望 值 之 间 的 差异 ,也 就 
是 
bias = 0 — £[ĝ] (28) 
刀 切 法 可 用 于 上 述 偏差 的 估计 。 其 具体 过 程 为 ,首先 在 集合 DD 中 按 顺 序 删除 r EKAN 
除 一 个 ,然后 计算 估计 量 Gg... = 0", 5，。 这 样 ,偏差 的 刀 切 法 估计 就 是 (习题 21) 


bias jack = (n — 1)(0.) — 9) (29) 
重新 组 合 上 式 右 边 各 项 ,可 得 到 8 的 刀 切 法 知 计 为 
6 = Ê — bias jack = nO — (n — 1)6,, (30) 
使 用 式 (30) 的 好 处 是 , 它 是 真实 偏差 的 一 个 无 偏 估计 (习题 25) 。 
刀 蕊 法 方差 估计 
现在 ,我 们 寻找 任 一 统计 量 9 的 方差 的 刀 切 法 估计 。 首 先 , 回 忆 传 统 的 方差 的 定义 是 
Var[o] = E[[O(x1, x2,..-, Xn) — ELAN] (31) 


O WWWRGackknife) ,也 被 称 为 “ 留 一 法 ”(leave one out), 其 思想 是 由 Maurice Quenouille 提出 的 。 而 这 个 方法 的 奇 
怪 的 称谓 ,是 John W. Tukey 命名 的 ,因为 这 个 方法 在 许多 问题 的 处 理 中 都 非常 方便 而 且 有 用 。 
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类 似 于 式 (26) ,方差 的 刀 切 法 估计 定义 为 
x a JT J. « n 
Var jacklO] = — > lâu — BoP (32) 


{二 1 


例 2 “ 模 ” 的 偏差 和 方差 的 刀 切 法 估计 
考虑 下 面 的 简单 例子 。 我 们 对 下 列 6 个 数据 点 的 “ 模 ” 感 兴趣 :DD 二 (0,10,10,10,20,20}. 
从 概率 分 布 直方 图 中 ,很 容易 看 到 ,出 现 最 频繁 的 点 就 是 9 二 10。 对 “ 模 ” 的 刀 切 法 估计 就 是 : 


A) = SI = [10+15+ 15+154+10+10} = 12.5 
其 中 , 当 i 二 2,3,4 时 ,我 们 利用 了 下 面 的 事 P(x) 
实 : 具 有 两 个 相等 的 峰 的 分 布 的 “ 模 " 就 是 这 两 | 
个 峰 的 中 点 。 这 样 ,0,., >6 的 事实 就 说 明了 本 


切 法 估计 比 传统 的 估计 考虑 进 了 更 多 的 关于 0 M e., 
分 布 本 身 的 信息 。 | 
关于 * 模 ”的 估计 的 偏差 的 刀 切 法 估 com 
lca tal al 一 个 n= 8 点 的 概率 分 布 的 直方 图 其 中 的 * 模 ， 


biasa = (n- DÊ, ~ 9) = 5112.5 一 10) = 12.5 估 为 10. 而 刀 切 法 估计 的 “ 模 " 值 则 为 12. 5。 方 差 的 
类 似 地 ,方差 的 刀 切 法 估计 可 以 用 式 (32) 。 刀 切 法 估计 的 平方 根 是 关于 “ 模 "的 散布 的 自然 测度 。 
来 计算 : 这 个 散布 程度 在 图 中 用 下 部 的 红色 的 横 杠 表示 。 


m= | a a a 2 
Varjack(@] = — (Gi — A.) 
i=j 


5 
= ={(10 — 12.5)? + 305 — 12.5)? + 2(10 — 12.5)7] = 31.25 


这 个 方差 的 平方 根 V31. 25s5. 6, 是 有 效 的 标准 差 。 直 方 图 下 面 的 2 倍 于 这 个 宽度 的 红色 横 
杠 ,表明 传统 的 “ 模 ” 的 估计 结果 落 在 这 个 容 限 区 间 内 。 


采用 刀 切 法 重 采样 技术 得 到 的 一 般 统计 量 ( 比 如 “ 模 ”) 的 合计 ,通常 比 传统 估计 方法 要 好 。 
当然 ,这 个 方法 的 计算 复杂 度 也 更 大 (习题 27) 。 
9.4.2 自助 法 (bootstrap) 

一 个 自助 数据 集 , 就 是 从 原始 训练 集 力 中 随机 选择 n 个 样本 点 组 成 的 一 个 新 的 训练 集 。( 由 于 原 
始 数据 集 力 的 大 小 就 是 n, 因 此 自助 数据 集中 不 可 避免 地 存在 着 重复 的 样本 点 ,) 在 “自助 法 估计 S” 
(bootstrap estimation) 中 ,这 个 选择 过 程 被 独立 地 重复 B 次 ,由 此 得 到 B 个 互相 独立 的 自助 数据 集 。 蘑 
个 统计 量 9 的 自助 估计 值 ,可 记 作 Gg"”, 它 定义 为 对 独立 的 B 个 自助 数据 集 的 估计 值 的 平均 , 即 


3 l aa 
er) = T > a (33) 
一 | 


其 中 ,6 ”是 对 第 5 个 自助 数据 集 估 计 的 统计 量 。 


© bootstrap 这 个 词 来 白 于 [德国 ] 拉 斯 伯 (Rudolf Erich Raspe) 的 幻想 小 说 《吹牛 大 王 历险 记 》(The adventures of 
Baron Munchhausen) ,小 说 中 的 主人 人 公 能 够 不 依赖 外 界 的 支撑 ,而 是 直接 通过 提起 自己 的 鞋 带 就 能 使 自己 骑 上 马 。 
这 个 名 词 的 另 一 个 应 用 场合 就 是 当 计 算 机 启动 时 ,我 们 必须 先 运行 一 个 引导 程序 ,然后 才能 运行 其 他 程序 。 
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自助 法 偏差 估计 
偏差 的 自助 法 估计 是 (习题 28) 
。 l 一 Ak A Akt A 
bidShoo = B20 h =O (34) 


1 
EPL 3 显示 了 上 自助 法 如 何 应 用 于 那些 很 难 进 行 计 算 和 分 析 的 统计 量 , 例 如 “修剪 的 均值 ? 
(trimmed mean), 其 中 直方 图 的 一 部 分 (例如 ,最 高 或 者 最 低 的 5% ) 已 经 被 修 前 掉 了 。 
自助 法 方差 估计 
方差 的 自助 法 估计 定义 为 


Í 5 Ak Aki 2 
Vator 9] = = > [é OET o (35) 
如 有 果 统 计量 8 就 是 均值 ,那么 当 Bokt, YEAH REE Atana 
题 22) ,总 的 说 来 ,B 值 越 大 ,对 一 个 统计 量 及 其 方差 的 自助 法 估计 就 越 令 人 人 满意。 自助 法 的 一 个 
优点 是 ,能 够 自动 适应 现 有 的 计算 机 资源 。 例 如 ,如 果 计 算 机 的 计算 能 力 很 强 , 那 么 就 可 以 使 用 
很 大 的 B 值 。 相 比 之 下 , 刀 切 法 严格 要 求 做 次 重复 ,如 果 少 于 这 个 次 数 ,得 到 的 估计 结果 就 不 
好 ,而 如 果 多 于 这 个 次 数 , 也 并 不 能 进一步 改善 效果 。 


9.5 分 类 器 设计 中 的 重 采样 技术 


上 一 节 探 讨 了 估计 统计 量 时 的 重 采 样 技术 ,也 对 现 有 分 类 髓 的 精确 度 进行 了 分 析 , 但 是 并 
没有 涉及 到 分 类 器 设计 的 问题 。 在 本 节 中 ,我 们 将 研究 一 些 分 类 融 设 计 中 的 重 采 样 技术 ,这 些 
技术 往往 与 其 他 的 分 类 器 设计 方法 结合 使 用 ,并 且 已 被 证 明 是 非常 有 效 的 。 这 些 方法 还 与 我 
们 将 在 9.6 节 中 介绍 的 评估 和 对 比 不 同 分 类 器 模型 的 技术 有 关 。 

9.5.1 bagging 算法 

—- “iff FA AY) 4g WB 1S “arcing” (adaptive reweighting and combining, 自 适应 的 权 值 重 置 和 组 
合 ) 是 指 这 样 的 过 程 : 重 新 使 用 或 选择 数据 ,以 期 达到 改善 分 类 器 性 能 的 目的 。 在 9. 5.2 节 中 ， 
我 们 将 介绍 一 种 最 流行 的 arcing 方法 ,也 就 是 AdaBoost 方法 。 但 是 在 这 里 ,我 们 首先 介绍 一 
个 最 简单 的 版 本 ,也 就 是 bagging 算法 。 这 个 名 字 来 自 于 bootstrap aggregation 8 By KR). 
它 表 示 如 下 过 程 ;从 大 小 为 的 原始 数据 集 力 中 ,分 别 独 立 随机 地 抽取 x 个 数据 (x 二 n) 形 成 
自助 数据 集 ,并 且 将 这 个 过 程 独 立 进 行 许多 次 ,直到 产生 很 多 个 独立 的 自助 数据 集 。 然 后 ,每 
一 个 自助 数据 集 都 被 独立 地 用 于 训练 一 个 “分 量 分 类 器 ”(component classifier)。 最 终 的 分 类 
判决 将 根据 这 些 “ 分 量 分 类 器 ”各 自 的 判决 结果 的 投票 来 决定 2 。 通 常 ,这 些 分 量 分 类 器 的 模 
型 形式 都 是 一 样 的 ,例如 ,它们 可 能 都 是 HMM 分 类 器 ,或 者 都 是 神经 网 络 分 类 器 ,或 者 都 是 
判定 树 ,等 等 。 当 然 它 们 的 具体 模型 参数 可 能 不 同 , 这 是 由 于 各 自 的 训练 集 的 不 同 而 引起 的 。 

如 果 训 练 数 据 的 较 小 的 变化 ,就 能 够 导致 分 类 句 的 显著 改变 ,以 及 分 类 准确 率 的 较 大 变 
化 ,那么 这 种 分 类 或 学 习 算 法 就 可 以 被 非 正式 的 称 为 “不 稳定 ”(unstable)。 例 如 ,我 们 在 第 8 
章 中 看 到 ,使 用 "贪心 算法 ?训练 的 判定 树 ,就 有 可 能 是 不 稳定 的 一 一 仅仅 由 于 单个 样本 点 的 位 


O 在 9.7 节 中 ,我 们 将 遇 到 分 量 分 类 器 的 其 他 名 称 ( 译 者 注 ;比如 ， 子 分 类 器 " “专家 分 类 器 ")。 但 在 这 里 ,我 们 只 需 
要 记 住 这 里 的 “分 量 ? 一 词 并 不 是 指 特征 向 量 中 的 各 个 分 量 ,而 是 指 组 成 一 个 总 体 分 类 髓 ( 系 综 ) 中 的 许多 平等 的 成 
分 分 类 器 ,总 分 类 器 的 分 类 结果 是 由 这 些 分 量 分 类 器 的 结果 投票 决定 的 。 
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置 微小 变化 ,都 有 可 能 导致 最 后 的 判定 树 完全 不 同 。 一 般 说 来 ,bagging 算法 能 够 提高 “不 稳 
定 ” 分 类 器 的 识别 率 ,因为 它 相 当 于 对 不 连续 处 进行 了 平均 化 的 处 理 。 然 而 ,并 没有 理论 推导 
或 仿真 实验 表明 它 可 以 适用 于 所 有 的 “不 稳定 ?分 类 顺 。 

bagging 算法 是 我 们 遇 到 的 第 一 个 “多 分 类 器 系统 ”, 其 中 ,最 后 的 分 类 结果 取决 于 评 多 分 
量 分 类 器 的 输出 。 而 bagging 法 中 的 最 基本 的 判决 规则 ,就 是 对 各 个 分 量 分 类 器 的 判决 结果 
使 用 投票 表决 原则 。 在 9.7 节 中 ,我 们 还 将 讨论 其 他 多 分 类 器 系统 ,而 且 注 意 力 将 集中 在 如 何 
根据 多 个 分 量 分 类 器 的 输出 结果 ,组 合 出 单一 的 判决 。 

9.5.2 boosting 法 

“boosting 法 "(增强 法 ) 的 目标 是 提高 任何 给 定 的 学 习 算 法 的 分 类 准确 率 。 在 boosting 法 
中 ,我 们 首先 根据 已 有 的 训练 样本 集 设 计 一 个 分 类 器 ,要 求 这 个 分 类 器 的 准确 率 比 平均 性 能 要 
好 。 然 后 ,依次 顺序 地 加 入 多 个 分 量 分 类 器 系统 ,最 后 形成 一 个 总 体 分 类 占 , 它 对 训练 样本 集 
的 准确 率 能 够 任意 的 高 。 在 这 种 情况 下 ,我们 说 ,分 类 准确 率 被 增强 了 。 概 括 地 说 ,本 方法 依 
次 训练 一 组 分 量 分 类 器 ,其 中 每 个 分 量 分 类 器 的 训练 集 都 选择 自己 有 的 其 他 各 个 分 类 器 所 给 
出 的 “最 富 信息 ”(most informative) 的 样本 点 组 成 。 而 最 终 的 判决 结果 则 是 根据 这 些 分 量 分 
类 器 的 结果 共同 决定 。 

为 了 说 明 问 题 ,我 们 考虑 对 一 个 两 类 问题 如 何 使 用 boosting 方法 创建 3 个 分 量 分 类 器 。 
首先 ,我 们 从 大 小 为 n 的 原始 样本 集 DD 中 随机 选取 ni 个 样本 点 (不 放 回 ), 组 成 样本 集 D;。 然 
后 ,我们 就 根据 Di ,训练 出 第 一 个 分 类 器 , 记 为 Cl。 分 类 器 Cl 只 要 求 是 一 个 弱 学 习 项 就 可 以 
了 。 也 就 是 说 , 它 只 需要 比 随机 猜测 的 结果 高 一 点 的 准确 率 就 行 了 .当然 ,这 是 最 低 要 求 。 
弱 分 类 器 在 训练 样本 集 上 的 准确 率 也 可 能 有 很 高 的 。 如 果 这 样 ,boosting 法 的 好 处 就 不 明显 
了 。) 现 在 ,我 们 要 构造 第 二 个 样本 集 D: ,也 就 是 由 根据 分 类 器 C1 最 宣 信 息 的 那些 样本 点 组 
成 。 更 明确 地 说 ,D: 中 一 半 的 样本 应 该 能 被 Ci 正确 分 类 ,而 另 一 半 则 被 C, 错 分 (习题 30) 。 
具体 的 构造 方式 可 以 如 下 :我 们 采用 抛 硬币 的 方法 ,如 果 是 正面 , 那 我 们 就 选取 那些 了 中 剩余 
的 样本 点 ,一 个 接 一 个 地 送 入 C 进行 分 类 ,直到 遇 到 第 一 个 被 错 分 的 样本 点 为 止 。 于 是 我 们 
就 把 这 个 样本 点 加 入 集合 D: 。 然 后 再 抛 一 次 硬币 ,如果 结 果 还 是 正面 ,那么 继续 前 一 过 程 ,把 
错 分 的 样本 加 入 D; ;如 果 是 反面 ,那么 我 们 选取 一 个 被 Ci 正确 分 类 的 样本 点 。 使 用 这 样 的 操 
作 流 程 , 在 最 后 产生 的 集合 D: 中 ,将 有 一 半 的 样本 被 CO 正确 分 类 ,而 男 一 半 的 样本 被 Ci 错误 
地 分 类 。 这 样 ,D; 就 是 Cl 所 产生 的 最 宣 信 息 的 集合 。 现 在 ,我 们 就 可 以 利用 D;: 训 练 一 个 新 的 
分 类 器 , 记 为 Cz. 

下 面 ,我 们 继续 构造 第 三 个 训练 样本 集 D3。 其 构造 方式 如 下 ,我 们 在 DD 中 剩余 的 样本 中 选 
取样 本 点 ,并 且 用 C 和 Cs HATH. ROC AC, 判决 的 结果 不 同 ,那么 就 把 这 个 样本 加 入 
D; ,否则 就 忽略 这 个 样本 点 。 然 后 ,用 D3 训练 新 的 分 类 器 , 记 为 Cs 。 

现在 我 们 就 可 以 用 这 3 个 分 量 分 类 器 来 对 一 个 新 的 样本 x 进行 分 类 了 。 例如, 如果 Cl 和 
C: 的 判决 结果 相同 ,那么 就 把 x 标记 为 这 个 类 别 。 如 果 Cl AC, 的 判决 结果 不 同 , 那 么 就 把 x 
标记 为 C; 判决 得 到 的 类 别 ( 图 9-6). 

这 里 ,我 们 跳 过 了 一 个 实际 实现 中 的 细节 问题 ; 即 如 何 选 取 第 一 个 训练 样本 集 D1 的 大 小 
ni 。 当 然 ,我 们 总 是 希望 最 后 的 总 体 分 类 器 用 到 了 DD 中 的 所 有 的 样本 。 而 且 , 由 于 总 体 分 类 莫 
的 判决 结果 是 由 3 个 分 量 分 类 器 共同 决定 的 ,我 们 希望 这 3 个 分 类 器 的 训练 样本 集 大 小 尽 可 
能 的 平衡 , 即 之 ns 半 ns 守 n/3。 因 此 ,一 个 最 初 的 想法 就 是 令 m 一 ?23 ,然后 依次 构建 这 3 个 
分 量 分 类 器 。 但 是 ,如 果 分 类 问题 本 身 比较 简单 ,只 赁 Ci 就 足以 正确 分 类 大 多 数 样本 点 ,那么 
C 所 需 的 样本 点 将 比 C 多 ,最 少 的 是 G ,因而 不 能 充分 利用 了 DD 中 的 所 有 样本 点 。 男 一 个 极端 
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情况 是 ,如 采 分 类 问题 本 身 非 常 困难 ,那么 对 C, 来 说 ,“ 最 富 信息 ”的 样本 数量 将 非常 大 ,因此 
n 职 会 变 得 非常 大 。 于 是 ,在 实践 中 常常 需要 将 boosting 过 程 重复 几 次 ,每 次 都 调整 mm ,目的 
是 为 了 最 后 能 够 尽 可 能 地 利用 全 部 的 样本 点 。 理 想 的 情况 是 ,3 个 分 量 分 类 器 所 使 用 的 样本 
所 数量 基本 上 是 平衡 的 。 企 上述 划分 数据 集 的 过 程 中 ,也 可 以 使 用 一 些 启发 式 的 知识 (上 机 练 
习 6). 

上 述 的 boosting 方法 也 可 以 被 递归 地 使 用 , 即 对 分 量 分 类 器 本 身 也 进行 boosting, Mix 








图 9-6 最 上 图 显示 了 一 个 二 维 的 两 类 分 类 问题 。 中 间 一 行 表 示 了 用 LMS 算法 (参见 第 5 章 ) 训 
练 得 到 的 3 个 线性 分 量 分 类 露 C .它们 各 自 的 训练 样本 集 都 是 通过 基本 的 boosting 方法 得 到 的 。 
最 终 的 总 体 分 类 器 的 判决 结果 是 由 这 3 个 分 量 分 类 器 投票 决定 的 .得 到 的 是 一 个 非 线性 分 类 器 ， 
示 于 图 的 了 下部。 只 要 分 量 分 类 器 都 是 蚤 分 类 器 ( 即 它们 的 分 类 效果 只 要 求 比 随机 猜测 好 ) .那么 ， 
最 后 的 总 体 分 类 器 的 (对 整个 训练 集 甩 的 ?性 能 将 比 任何 一 个 分 量 分 类 器 都 好 。 当 然 , 也 比 在 整个 
训练 集 上 训练 的 单个 常规 分 类 器 好 


种 方式 ,可 以 获得 非常 小 的 分 类 误 善 率 。 甚 至 ,在 类 别 之 间 可 分 的 情况 下 可 以 达到 零 误 差 。 
AdaBoost 方法 

基本 boosting 方法 有 许多 不 同 的 变形 。 其 中 最 流行 的 一 种 就 是 AdaBoost 方法 .这 个 名 
BK RE“ adaptive boosting”( 自 适应 增强 ) 的 缩写 。 这 个 方法 允许 设计 者 不 断 地 加 入 新 的 “ 弱 分 类 
胡 ”, 直 到 达到 某 个 预定 的 足够 小 的 误差 率 。 在 AdaBoost 方法 中 ,每 一 个 训练 样本 都 被 赋予 
一 个 权重 ,表明 它 锌 某 个 分 量 分 类 占 选 入 训练 集 的 概率 。 如 果 某 个 样本 点 已 经 被 准确 地 分 类 ， 
那么 在 构造 下 一 个 训练 集中 , 它 被 选中 的 概率 就 被 降低 ;相反 ,如 果 某 个 样本 点 没有 被 正确 分 
类 ,那么 它 的 权重 就 得 到 提高 。 通 过 这 样 的 方式 ,AdaBoost 方法 能 够 “聚焦 于 ”那些 较 困 难 (更 
富 信 息 ) 的 样本 上 。 在 具体 实现 上 ,最 初 令 每 个 样本 的 权重 都 相等 。 对 于 第 k 次 迭代 操作 ,我 
们 就 根据 这 些 权 重 来 选取 样本 点 ,进而 训练 分 类 器 C,。 然 后 就 根据 这 个 分 类 器 ,来 提高 被 它 
错 分 的 那些 样本 点 的 权重 ,并 降低 可 以 被 正确 分 类 的 样本 权 。 然 后 ,权重 更 新 过 的 样本 集 被 用 
来 训练 下 一 个 分 类 器 Cr 。 整 个 训练 过 程 如 此 进行 下 去 。 

我 们 用 x Aly, 表示 原始 样本 集 力 中 的 样本 点 和 它们 的 标记 。 用 多 (iD 表示 第 上 次 迭代 时 
全 体 样 本 的 权重 分 布 。 这 样 就 有 如 下 所 示 的 AdaBoost 算法 。 
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算法 1 ( AdaBoost 方法 ) 


1 begin initialize D= {x ,ys X", Yn) s kmax WiCi)=1/n,i=1,",n 

2 k<-0 

3 do Kk<—k+ ] 

4 训练 使 用 按照 W, REY DAY SF Od a C 

” Ei 一 对 使 用 Wi ON DNEH CG 的 训练 误差 

6 mn — E,)/E,] 

7 We <M > e% WR h =y CE BR BRS 
Zi ee WMR 有 hh.《X ) 隆 yi( 不 正确 地 被 分 类 ) 

8 until k= kraz 

9 return CG, Ala, k=l ,…，kmz( 带 权 值 分 类 器 的 总 体 ) 

10 end 


注意 在 第 5 行 中 ,当前 的 权重 分 布 必须 考虑 到 分 类 器 C 的 误差 率 。 在 第 7 行 ,Z 只 是 一 
个 归 一 化 系数 ,使 得 W, (i) 能 够 代表 一 个 真正 的 分 布 ,而 h(x ) 是 分 量 分 类 器 C 给 出 的 对 任 一 
样本 点 x 的 标记 (十 1 或 -1)。 第 8 行 中 的 和 迭代 停止 条 件 可 以 被 换 为 判断 当前 误差 率 是 否 小 
于 一 个 疹 值 。 ， 

最 后 的 总 体 分 类 的 判决 可 以 使 用 各 个 分 量 分 类 器 加 权 平 均 来 得 到 ， 


kmax 
g0) = [Si ano (36) 
k=! 


这 样 ,最 后 的 判定 规则 简单 的 就 是 Sgn[g(x)]。 | 

除了 病态 的 情况 ,在 大 多 数 场 合 ,只 要 每 个 分 量 分 类 器 都 是 弱 学 习 器 ,那么 如 果 kw 足够 
大 ,总 体 分 美 器 的 训练 误差 概率 就 能 够 任意 的 小 。 为 了 理解 这 一 点 ,我们 注意 到 弱 学 习 器 C 
的 误差 概率 可 以 写成 E, 二 1/2 -G Ap G 是 某 个 正 值 。 这 样 ,总 体 分 类 器 训练 的 误差 概率 


就 是 (习题 32) 
kmax kmax 
E=[] 2 E -E| = [| /1-463 
k=i k=Í 
< (25 ci) (37) 


k=! 


如 图 9-7 所 示 。 在 实际 应 用 中 ,通常 令 kw: 比 达到 零 误差 率 所 需要 的 值 要 小 一 些 , 这 样 做 的 好 
处 是 增强 分 类 器 的 推广 能 力 。 

虽然 在 原理 上 ,比较 大 的 kmz 值 可 能 导致 过 拟 合 ,但 是 仿真 实验 却 表明 ,甚至 当 上 -非常 大 
时 ,过 拟 合 现象 也 很 少 发 生 。 这 可 能 就 是 AdaBoost 方法 的 迷人 之 处 。 

WEEK , boosting 方法 好 像 违背 了 “没有 免费 的 午餐 定理 ”, 因 为 对 于 整个 训练 样本 集 而 
言 ,总 体 分 类 器 的 性 能 总 是 比 单一 分 量 分 类 器 要 好 。 毕 竟 ,根据 式 (37) , 随 着 分 量 分 类 器 数量 
的 增长 ,分 类 误差 率 成 指数 快速 衰减 。 然 而 ,并 没有 违反 定理 ,因为 boosting 法 只 有 在 确保 分 
量 分 类 人 句 比 随机 猜测 好 的 前 担 下 ,才能 提高 总 体 分 类 器 的 准确 率 , 而 前 提 并 非 总 能 保证 。 而 
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且 ,对 训练 集 能 指数 衰减 ,并 不 保证 “ 非 训 练 集 * 上 的 推广 误差 率 也 很 小 ,如 同 我 们 在 9. 2. 


中 所 看 见 的 那样 。 不 过 ,对 许多 实际 的 应 用 ,AdaBoost 方法 确实 被 证 明 是 非常 有 效 的 。 
图 9-7 KFA AdaBoost 方法 ,能 够 使 训练 误 E 
差 率 随 着 kms 的 增加 而 成 指数 衰减 。 因 为 Ad- 
aBoost 方法 “聚焦 于 ?那些 难于 分 类 的 样本 点 ， 
因此 ,各 个 分 量 分 类 器 的 误差 率 都 依次 比 它 的 
前 一 个 要 高 。 然 而 ,只 要 每 一 个 分 量 分 类 器 都 
比 随 机 猜测 好 ,那么 , 式 (36) 给 出 的 加 权 的 总 
体 分 类 器 的 判决 保证 了 式 (37) 给 出 的 训练 误 
差 率 持续 地 降低 。 通 常 ,人 们 发 现 ,测试 误差 
率 也 随 之 降低 ,如 图 中 的 红色 曲线 所 示 1234567.8910112131415 


9.5.3 基于 查询 的 学 习 

在 前 面 几 市 中 ， 我 们 在 假设 训练 样本 集中 的 各 个 样本 点 的 类 别 标记 已 知 的 情况 下 ,使 用 重 
采样 技术 来 提高 分 类 响 的 性 能 。 在 某 些 应 用 场合 ,样本 的 类 别 是 未 标记 的 。 在 第 10 SEP HK 
们 将 更 加 深入 地 考虑 一 般 的 无 监督 的 学 习 问 题 。 不 过 在 这 里 ， 假设 还 是 存在 某 种 方法 (可 能 花 
费 很 高 的 代价 ) 可 以 对 任 一 样本 进行 标记 。 因 此 ,我 们 的 主要 困难 是 ,如 何 确定 哪些 样本 点 “最 
富 信息 ”( 对 改进 分 类 器 最 重要 ) ,如果 它们 被 标记 并 用 作 训 练 样 本 的 话 。 这 些 样 本 点 将 被 用 作 
“查询 项 "递交 给 一 个 “ 神 论 ”"(oracle) 即 一 个 能 够 永远 无 错 的 标记 样本 点 的 教师 。 这 种 方 
法 还 有 许多 别 的 提 法 ,比如 "基于 查询 的 学 习 "， 主 动 学 习 ”, 或 者 "交互 式 学 习 ”, 等 等 , 它 可 以 
被 看 作 是 “ 重 采样 技术 ”的 一 个 特例 。 这 种 方法 的 一 种 改进 版 本 称 为 “基于 代价 的 学 习 ”, 其 中 ， 
对 获取 一 个 新 样本 点 ,都 赋予 一 个 代价 值 。 而 任务 就 变 成 最 小 化 一 个 总 体 代价 , 它 包 含 分 类 准 
确 率 以 及 数据 采集 的 代价 。 

在 如 下 的 场合 中 ,使 用 “基于 查询 的 学 习 ” 可 能 是 合适 的 :比如 ,我 们 需要 进行 手写 数字 的 
识别 ,而 数据 库 中 已 有 的 像素 图 像 数 目 太 多 ,以 至 于 不 可 能 手工 进行 标记 。 这 样 , 我 们 可 以 进 

行 如 下 操作 :首先 ,随机 选取 一 部 分 样本 点 ,把 它们 递交 给 “ 神 论 ”然后 根据 “ 神 褒 ”提供 的 标记 

由 果 来 训练 分 类 名 然后 ,我 们 使 用 基于 查询 的 学 习 方 法 ， 即 从 训练 集中 选择 一 些 未 标记 的 样 
本 点 ,并 递交 给 用 户 ( 即 * 神 论 ”) ,再 次 要 求 标记 。 非 正式 地 说 ;我 们 可 以 想到 “最 富 信息 ”的 屠 
些 样 本 点 应 该 位 于 分 类 界面 附近 。 








更 一 般 地 说 ,我 们 从 最 基本 的 情况 开始 考虑 。 设 想 ,我 们 已 经 有 了 一 _ 个 已 标记 的 小 样本 训 


练 集 得 到 的 弱 分 类 器 ,有 两 种 相关 的 选择 “更 富 信 息 ”“( 也 就 是 现 有 分 类 岩 最 不 确定 的 ) 样 本 点 
的 方法 。 在 “基于 信任 度 的 查询 选择 方法 ”中 (confidence-based query selection) ,分 类 器 计算 
每 一 类 的 判别 函数 g;(x) ,i 二 1,…,c, 那 个 “最 富 信息 ” 的 样本 点 就 是 使 得 最 大 的 两 个 判别 函数 
的 值 基 本 相等 的 点 。 一 些 启发 式 的 搜索 方法 可 以 用 于 寻找 这 样 的 样本 点 (参见 习题 31) 。 

第 二 种 方法 ,被 称 为 “基于 投票 的 选择 方法 ”(voting-based selection) 或 称 为 “基于 委员 会 
的 查询 方法 ”(committee-based query selection)。 本 法 类 似 于 上 一 种 方法 ,但 它 还 能 够 用 于 多 
分 类 器 的 场合 即 由 多 个 分 量 分 类 器 组 成 一 个 总 体 分 类 器 (9.7 节 )。 每 个 未 标记 的 样本 点 
都 被 输入 k 个 分 量 分 类 器 中 ,而 使 得 各 个 分 量 分 类 器 的 判决 结果 最 不 一 致 的 样本 点 就 被 认为 
是 最 富 信 息 的 样本 ,因此 将 被 递交 给 “ 神 论 ? 来 确定 其 类 别 。“ 基 于 投票 的 选择 方法 "可 以 用 于 
判别 晒 数 不 是 模拟 值 的 场合 ,比如 ,判定 树 .基于 规则 的 方法 或 者 上 -近邻 分 类 右 。 在 上 述 两 种 
方法 中 ,由 “ 神 论 ? 标 记 的 样本 点 都 被 用 来 以 传统 方法 训练 分 类 融 〈 在 9.7 节 中 ,我 们 将 研究 如 
何 训练 一 个 总 体 分 类 器 ( 系 综 ))。 
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显然 ,“ 基 于 查询 的 学 习 ” 方 法 并 不 直接 利用 样本 的 先 验 分 布 知 识 。 特 别 是 ,在 许多 问题 中 ， 
使 用 这 样 的 方法 ,将 导致 分 类 界面 附近 的 样本 点 (最 富 信息 ) 的 出 现 概率 很 高 ,而 不 是 在 先 验 概率 
最 高 的 区 域 ,如 图 9-8 所 示 。“ 基 于 查询 的 学 习 方法 的 好 处 之 一 是 ,我 们 不 必 猜 测 样本 的 分 布 情 
况 , 而 可 以 直接 应 用 一 些 非 参 数 方法 (比如 最 近邻 分 类 方法 等 ), 来 直接 得 到 判决 边界 。 


图 9-8 “主动 学 习 ” 技 术 能 够 用 于 建造 比 以 独立 + 
Fa] 4} G. i d. ) 方 式 采样 的 分 类 器 的 性 能 更 好 的 分 

类 器 。 上 图 显示 一 个 二 维 两 类 问题 ,每 一 类 都 具有 

高 斯 先 验 。 贝 叶 斯 判决 边界 是 一 条 直线 ,并 且 贝 叶 O | 

期 误差 率 Es 约 等 于 0.02275 .左下 图 显示 用 30 个 

i i d. 采样 的 样本 点 训练 得 到 的 最 近邻 分 类 器 。 注 m 

意 ,其 中 的 大 多 数 点 都 远离 判决 边界 。 右 下 图 显示 | BOOR 

使 用 主动 学 习 技 术 后 的 结果 。 最 初 的 4 个 点 取 自 fo \iia 样 本 ees 
特征 空间 的 极端 。 接 下 来 的 那些 查询 点 则 被 选择 ON O 
为 已 经 被 分 类 器 使 用 的 两 个 点 的 中 间 ,每 个 点 随机 
地 选 自 两 类 中 的 每 一 个 。 通 过 这 样 的 方式 ,被 递交 
给 “ 神 渝 ”的 点 都 依次 聚焦 在 真正 的 判决 边界 附近 。 
最 后 的 分 类 器 的 广义 误差 率 为 下 一 0.02422, 这 要 E=0.05001 ~”! B=0.02422 “~” 
比 左 图 的 E=0. 05001 低 得 多 
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“基于 查询 的 学 习 ” 方 法 。 举 例 说 明 ,假设 我 们 只 有 数量 较 少 的 已 被 标记 的 手写 体 字 符 的 样本 ， 
并 且 有 一 些 图 像 处 理 算 法 ,能 够 变换 这 些 图 像 ,产生 新 的 可 以 递交 给 “ 神 论 ” 的 样本 图 像 。 例 
如 ,一 个 图 像 可 以 被 旋转 、 放 缩 . 剪 切 、 细 化 并 添加 上 噪声 。 进 一 步 , 通 过 “内 捅 ?或 者 某 些 专门 的 
“混合 ”图 像 的 技术 ,我 们 甚至 还 可 能 产生 一 些 介 于 两 类 别 之 间 的 中 间 图 像 。 基 于 这 种 “生成 ” 
的 查询 样本 ,我们 就 能 够 探索 特征 空间 中 最 不 确信 的 那些 区 域 ( 图 9-8). 

9.5.4 arcing、 基 于 查询 的 学 习 、 偏 差 和 方差 | 

在 第 3 章 和 许多 其 他 地 方 ,我 们 都 强调 了 用 于 训练 分 类 器 的 样本 需要 取 自 被 测试 样本 的 
分 布 中 。 重 采样 技术 (特别 是 “基于 查询 的 学 习 ” 方 法 ) 似 乎 违反 了 这 个 原则 。 为 什么 用 经 过 很 
强加 权 的 数据 集 来 训练 分 类 器 , 比 起 那些 独立 同 分 布 (i.i, d. ) 采 样 的 数据 集 来 ,反而 更 能 够 得 
到 更 好 的 性 能 ?为 什么 重 采 样 不 导致 更 坏 的 结果 ,达到 重 采样 分 布 与 独立 同 分 布 偏离 的 程度 ? 

事实 上 ,如 果 我 们 采用 真实 分 布 的 模型 ,然后 用 “基于 查询 的 学 习 ” 获 得 的 严重 焉 斜 的 
(skewed) 分 布 来 进行 分 类 器 训练 ,那么 ,得 到 的 正确 率 也 很 可 能 低 得 无 法 接受 。 然 而 ,考虑 如 
下 两 个 互相 有 关联 的 要 点 :第 一 ,“ 重 采样 技术 ”一 般 总 是 被 用 于 那些 并 不 直接 对 分 布 进行 建 模 
的 学 习 算 法 。 这 样 ,即使 知道 每 个 类 别 的 先 验 概率 ,我 们 所 使 用 的 也 是 一 些 非 参 数 方法 ,比如 ， 
最 近邻 算法 、 径 向 基 消 数 、.RCE 分 类 器 等 。 这 样 , 在 使 用 “基于 查询 的 学 习 ?” 方 法 时 ,我 们 并 没 
有 像 第 3 章 那样 ,试图 去 估计 某 个 模型 的 参数 ,而 是 直接 寻找 判决 边界 。 

第 二 ,如 果 采 用 AdaBoost FHA, 随 着 分 量 分 类 器 数目 的 增加 ,诸如 “一般 boosting 算 
法 “和 “AdaBoost 算法 ?等 技术 可 以 有 效 地 扩展 可 实现 的 函数 类 型 范围 ,如 图 9-6 所 示 。 尽 管 
最 终 的 分 类 器 确实 可 以 用 参数 形式 表示 ,但 是 因为 输入 参数 空间 已 经 被 大 大 扩展 了 , 它 远 比 单 
个 的 分 量 分 类 妖 可 实现 的 分 布 形式 要 多 ， 

从 厂 义 的 观点 看 , 重 采 样 技术 、boosting 技术 等 相关 技术 都 是 一 些 调整 “可 实现 判别 函数 ”类 
型 的 局 发 式 方法 。 通 过 这 样 的 方法 ,设计 者 能 够 通过 间接 地 调整 “偏差 和 方差 ”, 使 得 最 终 的 分 类 
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器 能 够 “匹配 ”手头 的 问题 。 这 些 技术 的 威力 在 于 ,它们 能 够 和 任何 学 习 算 法 结合 使 用 。 例 如 ,可 


以 用 它 来 调整 两 层 感 知 器 ,使 之 适合 给 定 问 题 的 复杂 程度 ,而 用 其 他 方法 , 则 很 难 达到 这 个 目的 。 
9.6 分 类 器 的 评价 和 比较 


至 少 有 两 个 理由 使 得 我 们 希望 知道 某 个 分 类 器 对 给 定 问 题 的 推广 程度 。 其 一 是 评价 该 分 
类 器 性 能 ,看 它 是 否 足 够 好 ,足够 适合 给 定 的 问题 。 其 二 是 为 了 比较 不 同 的 分 类 条 , 选 出 更 好 
的 设计 方案 。 评 价 最 终 推广 性 能 总 是 不 可 避免 地 对 分 类 器 本 身 或 要 解决 的 问题 (或 包括 二 者 
在 内 ) 作 出 一 些 假设 ,并 且 当 假设 与 实际 情况 不 符 时 ,分 类 任务 往往 会 失败 。 我 们 将 强调 的 是 ， 
所 有 下 面 将 提出 的 方法 都 是 启发 式 的 。 的 确 , 假 如 存在 某 个 简单 方法 能 够 对 任意 给 定 的 新 问 
题 都 能 在 两 个 分 类 器 中 找到 其 中 一 个 “更 好 ”的 ,那么 我 们 自然 可 以 把 这 个 方法 能 人 到 任何 “等 
习 ” 算 法 中 ,从 而 违背 “没有 免费 的 午餐 定理 ”。 有 时 ,上 述 假设 是 显 式 的 (例如 在 参数 模型 中 )。 
但 更 多 的 时 候 , 这 些 假设 常常 是 隐 式 的 ,与 最 终 评价 并 无 明显 的 关系 (比如 某 些 经 验方 法 ), 因 
而 不 易 被 察 党 出 。 

9.6.1 参数 模型 

评价 推广 能 力 的 方法 之 一 是 利用 所 假设 的 参数 模型 来 计算 。 例 如 ,在 两 类 多 元 正 态 悄 帝 
下 ,我 们 可 以 通过 代入 未 知 参数 的 均值 或 协 方 差 的 估计 ,来 估计 误差 率 的 Bhattacharyya 或 
Chernoff 上 界 ( 第 2 章 ) 。 然 而 这 种 方法 存在 3 个 问题 。 第 一 ,这 种 误差 率 的 估计 几乎 总 是 过 
分 乐观 。 训 练 样 本 独 有 的 (或 不 典型 的 ) 特 性 未 能 被 揭示 出 。 第 二 ,我 们 总 是 怀疑 一 个 假设 的 
参数 模型 的 有 效 性 。 除 了 评价 性 能 很 差 的 情况 下 ,我 们 也 不 敢 ( 过 分 ?相信 某 个 相同 的 模型 。 
最 后 ,在 很 多 一 般 情况 下 ,分 布 的 形式 并 不 简单 ,即使 在 概率 结构 完全 知道 的 前 提 下 ,对 它 进 行 
误差 率 的 精确 估计 也 很 困难 。 

9.6.2 交叉 验证 

在 简单 的 “验证 ”Cvalidation) 中 ,我 们 随机 地 把 标记 号 的 训练 样本 集 了 分 成 两 部 分 :其 一 作为 
常规 的 训练 集 , 用 于 调整 分 类 器 参数 ;其 二 一 一 即 所 谓 的 “验证 集 ”(validation set) 用 于 评价 
推广 误差 (generalization error) 。 因 为 最 终 的 目的 是 获得 低 的 推广 误差 ,我 们 训练 分 类 器 以 求 达 
到 一 个 很 低 的 推广 误差 ,如 图 9-9 所 示 。 一 个 基本 的 要 求 是 验证 集 ( 或 测试 集 ) 当 中 不 应 该 包含 
用 于 训练 分 类 器 时 的 训练 样本 集 ,否则 会 导致 "用 训练 集 进行 测试 ”的 方法 论 上 的 错误 。 

上 上 述 技 术 的 一 个 简单 的 扩展 是 所 谓 的 “敬重 交叉 验证 ”(xm-fold cross validation) 。 这 里 ， 
训练 集 被 随机 划分 为 m 个 不 相交 的 组 ,每 组 有 n/m 个 样本 点 ,其 中 1 是 DD 中 样本 总 数 。 分 类 
器 要 训练 m 次 ,每 次 都 留 出 mx 组 中 的 一 组 作为 验证 集 。 佑 计 出 的 推广 误差 是 m 个 误差 的 平 
均值 。 当 m=n 时 的 极端 情况 就 是 将 在 9. 6. 3 节 讨 论 的 “ 留 一 法 。 | 

这 种 技术 可 以 用 到 几乎 所 有 的 分 类 方法 ,其 中 学 习 算 法 或 参数 调节 的 具体 形式 收 决 于 一 般 的 
训练 方法 。 例 如 ,在 具有 固定 拓扑 的 神经 网 络 中 ,训练 的 总 量 是 由 “回合 数 ”(epoch) (或 训练 集 提供 
的 总 次 数 ) 来 确定 的 。 另 外 , 隐 节 点 的 个 数 可 利用 交叉 验证 技术 来 确定 。 同 样 的 Parzen 窗 技术 (第 4 
章 ) 中 高 斯 函数 的 宽度 以 及 上 -近邻 分 类 器 中 的 数值 也 可 用 验证 技术 或 交叉 验证 技术 来 确定 。 

“验证 ?是 一 种 启发 式 技术 ,因而 未 必 ( 确 实 也 不 能 够 ) 对 所 有 情况 都 能 提高 分 类 性 能 。 虽 
然 如 此 ,由 于 验证 技术 简单 易 用 ,对 许多 实际 问题 也 的 确 发 现 能 有 效 提高 分 类 性 能 。 在 确定 验 
证 集 占 总 样本 集 DD 的 比例 X0<7Y<1) 时 也 有 几 种 验证 方法 。 在 几乎 所 有 的 情况 下 ,章帝 选 一 





O 一 个 相关 的 但 是 不 太 明 显 的 问题 , 即 用 测试 数据 进行 训练 ”, 在 分 类 器 用 同样 的 测试 数据 重复 训练 多 次 ( 即 历经 一 
个 很 长 的 改进 过 程 ) 时 会 经 常 出 现 。 除 非得 到 新 的 测试 样本 ,这 样 形式 的 用 测试 数据 进行 训练 "容易 引起 忽 锐 。 
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个 小 的 7, 这 是 因为 验证 集 通常 值 用 于 确定 分 类 器 的 某 个 单个 的 总 体 性 能 (比如 ,决定 何 时 该 


停止 调节 参数 ) ,而 不 是 分 类 器 的 大 量 的 竺 学 习 的 参数 。 如 果 分 类 有 很 多 的 自由 参数 (或 自由 
度 ), 那 么 DD 中 绝 大 部 分 样本 都 应 该 用 作 训 练 集 。 也 就 是 说 ,7 必须 很 小 。 一 个 常规 的 缺 省 做 法 
是 令 7=0.1, 这 个 值 常常 很 有 效 。 最 后 ,如 果 分 类 器 的 自由 度 比 训练 样本 的 个 数 相 对 较 小 , 那 
么 预期 的 推广 误差 将 与 7 的 选择 关系 不 大 。 


E 





训练 总 量 , 参数 调整 


此 处 停止 训练 


图 9-9 在 验证 中 ,数据 集 刀 被 分 为 两 部 分 。 第 一 部 分 (例如 采用 90%% 的 样本 ?用 作 标 准 的 训练 
集 , 用 于 训练 分 类 器 的 自由 参数 。 第 二 部 分 (例如 剩 下 的 10% 样 本 ) 用 作 验 证 集 , 用 于 测试 推广 性 
能 。 对 大 多 数 问题 ,训练 误差 会 随 着 训练 的 进行 而 单调 下 降 , 在 图 中 用 黑 线 表 示 。 而 在 验证 集 上 
REM AAO: CRIT ,然后 会 上 升 ,后 者 表示 出 现 了 对 训练 集 “ 过 拟 合 ”的 现象 。 在 验 
证 中 ,训练 (或 参数 调整 ) 通 常 在 验证 集 误差 到 达 第 一 个 局 部 极 小 时 就 停止 。 在 更 一 般 的 交叉 验证 
中 ,要 利用 多 个 独立 产生 的 验证 集 


我 们 再 次 指出 交叉 验证 技术 也 是 一 个 启发 式 技术 ,未 必 对 各 种 情况 都 适用 。 确 定 , 存 在 某 
种 问题 不 采用 交叉 验证 是 好 的 一 一 例如 , 当 验 证 集 的 误差 是 首次 达到 局 部 最 大 时 就 停止 参数 
调节 。 同 样 , 对 任何 具体 的 问题 ,设计 者 应 当 准 备 好 去 探究 不 同 的 y 值 ,并 在 性 能 不 可 能 再 改 
进 的 情况 下 完全 放弃 交叉 验证 的 方法 (上 机 练习 7). 

交叉 验证 从 本 质 上 说 属于 一 种 经 验方 法 。 一 旦 我 们 用 交叉 验证 技术 训练 了 一 个 分 类 器 , 那 
么 其 验证 误差 将 给 出 在 未 知 测试 集 上 的 最 终 分 类 准确 度 的 一 个 估计 。 如 果 分 类 器 真实 但 未 知 的 
误差 率 是 P, i n 个 独立 的 随机 抽取 的 实验 样本 中 误 分 类 的 样本 数 为 k, 则 k 满 足 二 项 式 分 布 


P(k) = (oa — p)" (38) 


所 以 被 分 错 样 本 的 比率 恰恰 是 p 的 最 大 似 然 售 计 ( 习 是 40); 


p= 一 (39) 
n 


二 项 分 布 的 参数 p 的 这 种 估计 的 性 质 是 大 家 知道 的 。 在 图 9-10 上 面 显 示 p BY 95% E fA Ii] 
与 p 和 nn 的 关系 。 对 于 给 定 的 p fA. A pW 95% 的 概率 落 在 样本 检验 数 为 n 的 上 下 两 条 曲 
线 之 间 。 这 些 曲线 表明 ,除非 x 足够 大 ,否则 使 用 最 大 似 然 估 计 的 结论 就 应 谨慎 。 例 如 当 50 
个 样本 以 95% 的 概率 测试 无 误差 , 则 真正 的 误差 率 在 0% 一 8% 之 间 , 当 分 类 器 对 250 个 以 上 
样本 测试 无 误差 才 可 相信 真正 的 误差 率 在 2% 以 下 。 
9.6.3 分 类 准确 率 的 “ 刀 切 法 “和 “自助 法 "估计 

进行 分 类 器 比较 的 方法 与 9. 4.1 节 和 9. 4.2 节 介 绍 的 “ 刀 切 法 ”和 “自助 法 ”关系 密切 。 在 
分 类 中 采用 “ 刀 切 法 ”的 作法 是 很 直接 的 。 对 给 定 算法 我 们 进行 n 次 独立 的 训练 ,每 次 都 使 用 
同样 的 训练 集 D, 但 是 每 次 又 都 去 除 一 个 不 同 的 样本 点 。 这 无 非 是 m=n 极端 情况 下 的 “m E 


REFHREWMMEFT m 391 


ZO SC BR UE” RR., FA BER UI A 4 AY OP SS aT BE SRE AS dE 7 a A * 7” HE A E 
估计 就 是 " 留 一 法 ?准确 率 估 计 的 平均 值 。 不 过 这 里 的 计算 复杂 度 将 很 高 ,特别 当 ) 很 大 时 ( 习 
题 29)。“ 刀 切 法 ”一 般 能 给 出 很 好 的 估计 ,因为 得 到 的 x 个 分 类 器 中 的 每 一 个 都 与 最 终 进行 
测试 的 分 类 冀 相似 ( 仪 仪 相差 一 个 训练 点 )。 同 样 ,这 种 佑 计 的 方差 的 刀 切 法 估计 由 式 (32) 的 
简单 推广 给 出 。 刀 切 法 一 个 特别 的 好 处 ,在 于 它 能 提取 两 个 分 类 器 进行 比较 时 的 “置信 和 度 ” 或 
“统计 显著 性 ”的 度量 。 
图 9-10 给 定 误差 率 
的 估计 上 的 95% Bia 
区 间 能 够 从 式 (38) 中 
导出 。 对 每 个 p, 真 实 
的 概率 有 95% AALS 
落 在 测试 数 为 xn 的 上 
下 两 条 曲线 间 。 测 试 
样本 数 越 多 ,估计 的 精 
度 越 高 ,因而 区 间 越 小 





P 
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 l 

假定 有 两 个 训练 好 的 分 类 器 COM C: ,利用 “ 刀 切 法 ”估计 分 别 有 85% 和 80% 的 准确 率 ,是 
BET Cte C; 性 能 好 ? 为 了 回答 这 个 问题 ,我 们 去 计算 分 类 准确 率 方差 的 刀 切 法 估 
计 , 并 且 应 用 常规 的 假设 检验 技术 去 判断 Ci 是否 在 统计 意义 上 优 于 Cs (图 9-11). 

在 采用 “自助 法 ”估计 分 类 器 准确 率 时 ,存在 几 种 推广 途径 。 最 简单 的 方法 之 一 是 先 训练 
B 分 类 器 ,每 次 都 采用 不 同 的 自助 数据 集 , 并 且 用 另外 的 自助 数据 集 来 测试 。 最 终 得 到 自助 法 
估计 出 的 分 类 准确 率 就 是 上 述 各 个 自助 准确 率 的 平均 值 。 在 实践 中 ,自助 法 估计 算法 有 过 高 
的 计算 复杂 度 ,使 得 并 不 值得 用 它 去 获得 可 能 的 估计 性 能 的 改善 (参考 9. 5. 1 节 )。 

图 9-1] “ 刀 切 法 ”估计 可 以 用 于 对 比 

分 类 器 的 准确 率 。C, 和 CLK AWK 

计 值 分 别 是 80% 和 85% ,其 总 宽度 ( 即 

两 倍 的 标准 差 ) 的 估计 分 别 是 12% 和 

15%% ,用 图 下 方 的 横 杠 表示 。 对 上 述 情 

况 ,在 某 些 置信 和 度 水 平 上 ,常规 “假设 检 

验 技术 "表明 它们 并 无 显著 的 差异 


准确 率 (%) 





9.6.4 最 大 似 然 模型 比较 
首先 回想 第 3 章 中 我 们 用 最 大 似 然 法 进行 参数 估计 。 给 定 一 个 具有 未 知 参 数 向 量 ONE 
型 ,我 们 试图 找到 能 最 大 化 训练 样本 的 概率 pC(D19) 的 参数 的 估计 9。 最 大 似 然 模型 比较 
(model comparison) 或 最 大 似 然 模型 选择 (model selection) 有 时 也 称 为 “MI.-I11” 一 一 是 上 
述 技术 的 一 种 直接 推广 。 推 广 的 目的 是 为 了 选择 最 能 解释 训练 数据 的 模型 。 具 体 方 法 如 下 。 
再 次 令 h;€E A 表示 候选 的 假设 或 模型 (简单 起 见 , 令 它 为 离散 的 ), 并 令 力 表示 训练 样本 数 
据 。 对 任何 给 定 模型 的 后 验 概 率 可 依 贝 叶 斯 规则 写作 下 式 : 
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P(h;|D) = PP hi?) x P(D|h;) P (hj) (40) 
p(D) 

其 中 我 们 很 少 需要 用 归 一 化 因子 p(D)。 与 数据 有 关 的 项 PD) h) Æ h: 的 证 据 因 子 项 ,而 
P(h;) 是 我 们 对 假设 空间 的 主观 的 先 验 知识 , 它 反映 的 是 在 数据 到 米 之 前 ,我 们 对 某 一 模型 的 
信任 程度 。 实 践 中 ,对 后 验 概 率 起 决定 作用 的 常常 是 与 数据 有 关 的 项 PCLD1h;) ,而 POA) HR 
忽略 不 计 。 在 最 大 似 然 模型 比较 中 ,我 们 首先 进行 候选 模型 的 最 大 似 然 参数 估计 ,然后 计算 对 
应 的 每 一 模型 最 大 似 然 值 ,最 后 选 出 式 (40) 中 具有 所 示 的 最 大 似 然 的 模型 (图 9-12). 
9.6.5 贝 叶 斯 模型 比较 

贝 叶 斯 模型 比较 在 计算 式 (40) 的 后 验 概 率 时 利用 了 完整 的 先 验 信息 。 特 别 是 对 特定 的 假 
设 模型 的 证 据 因 子 是 积分 式 


图 9-12 3 种 具有 不 同 表 达能 力 或 复杂 程度 的 证 据 因 子 ( 即 在 给 定 模 
型 的 情况 下 ,产生 不 同 训 练 集 的 概率 )。 模 型 hi 的 表达 能 力 最 强 , 因 为 
它 可 以 适应 很 宽 范围 的 数据 集 。 模 型 六 是 最 受 限 的 模型 。 如 果实 际 
观测 到 的 数据 集 是 D' ,那么 根据 “最 大 似 然 模型 选择 方法 "我们 应 该 选 
择 模型 hz ,因为 在 D" 上 它 具 有 最 高 的 证 据 因 子 。 也 就 是 说 ,模型 ALS 
给 定 的 数据 集 “ 匹 配 ” 得 最 好 


P(D\h;) = J p(D|O, h;) p(O|D, hi) d0 (AL) 





其 中 ,8 是 给 定 模型 的 参数 。 通 常 ,后 验 概 率 PCD. h) ZAE h ARIE , Alt LRAT 
可 近似 表示 为 
P(D\h;) ~ P(DIO, hi) p(OIhi)A0 
A dns 
最 佳 匹 配 似 然 。 Occam 因子 
在 数据 到 来 之 前 ,模型 h; 具有 很 宽 的 参数 选择 范围 ,可 用 和 90 来 表示 ,如 图 9- 13 所 示 。 当 数据 到 
来 之 后 , 变 成 一 个 较 小 的 与 数据 集 冯 相当 的 (或 相 一 致 的 ) 范 围 , 记 作 A86。 式 (42) 中 的 Occam 因子 为 
人 A@ 
Occam AF = p(0|h;) A0 = X06 
B 与 刀 等 量 的 参数 空间 的 体积 
与 任何 数据 空间 等 量 的 参数 空间 的 体积 
它 是 以 下 两 个 参数 空间 的 体积 比 :(1) 对 应 于 九 的 参数 空间 , (2) 与 DD 无 关 的 先 验 参数 空间 。 
Occam 因子 具有 小 于 1.0 HIB. KEW KEES RRS AEA. MRE 
的 训练 数据 越 多 ,那么 5 A E H 4 SS D RD , BI HHR 1 BO MT AY Occam A 
子 也 越 小 (图 9-13). ` 
自然 地 ,一 旦 采用 式 (40) 和 (42) 对 不 同 候选 模型 计算 出 后 验 概 率 , 那 么 就 会 选择 具有 最 大 
后 验 概率 的 那个 模型 (具有 讽刺 意味 是 ,这 种 “ 贝 叶 斯 模型 选择 法 ”本 身 并 不 是 真正 意义 的 “ 贝 
叶 斯 方法 ”, 因 为 “ 贝 叶 斯 方法 ”在 进行 判别 时 要 求 对 所 有 的 可 能 的 模型 都 平均 )。 
的 证 据 因 子 , 即 Plh) ,在 进行 最 大 似 然 参数 8 设置 时 被 我 们 忽略 了 ,然而 在 这 里 的 “和 模 
型 选择 ”中 , 它 起 着 中 心 的 作用 。 正 如 我 们 曾经 提 到 的 ,在 实践 中 , 式 (40) 的 证 据 因 子 项 决定 了 先 
验 信 息 。 把 它 忽 略 不 计 的 典型 作法 常常 是 主观 武断 的 ,因而 引起 不 少 问题 (习题 39, 上 机 练习 
9)。 本 节 介 绍 的 算法 表现 出 一 种 对 简单 模型 (小 的 A0) 的 固有 的 偏爱 ,而 “过 分 复杂 ”的 模型 (大 
的 Ab) 通 常会 自动 引入 一 项 “惩罚 项 *。( 当 然 , 这 里 的 “过 分 复杂 ?是 针对 具体 数据 而 言 的 。) 


(42) 


(43) 
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图 9-13 当 没 有 训练 数据 时 ,一 个 特定 的 模型 h 容许 很 

宽 范 围 (用 A"*9 表 示 ) 的 可 能 参数 取 值 。 当 提供 特定 的 训 POID.h,) 
练 集 隐 后 ,只 容许 很 罕 的 参数 取 值 范围 (用 «AG 表示 )。()c- 
cam 因子 , 即 A0/A 0, 反 映 的 是 模型 参数 空间 随 着 训练 数据 
集 刀 的 输入 所 导致 的 抽 塌 比 率 。 在 实践 中 ,如 果 证 据 因子 
用 以 6 为 中 心 的 p 维 遍 斯 近似 ,那么 Occam 因子 可 以 简单 
地 计算 出 来 9 
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一 般 而 言 , 式 (41) 的 积分 过 于 复杂 而 很 难 进行 解析 计算 ,其 至 用 数值 方法 求解 也 是 很 困难 

的 。 尽 管 如 此 ,如 果 06 是 一 个 p 维 向 量 , 并 且 后 验 分 布 可 假定 为 高 斯 的 ,那么 Occam 因子 可 直 
接 计算 如 下 (习题 38)。 

P(DIhi) ~ P(D|0,h;) pk) Or IH 

See, Pee a 


(44) 
Be (EVE AC LR Occam KF 


ə? In p(O|D, hi) 
30? 
Hi: ahs RRE E- R — BT a TE E «PE BA EY J SR RR RR, aAA 
斯 近似 法 并 不 依赖 于 特征 数据 的 分 布 模型 是 否 真 的 是 高 斯 的 。 相 反 , 它 基于 这 样 的 假定 , 即 证 
据 因 子 的 分 布 是 大 量 独 立 的 不 相关 随机 过 程 的 产物 ,因而 服从 “大 数 定律 ”。 贝 叶 斯 模型 选择 
中 的 积分 利用 了 对 证 据 的 高 斯 近似 而 得 到 简化 。 因 为 只 涉及 微分 运算 的 赫 森 矩阵 的 求解 过 程 
几乎 总 是 比 高 维 的 数值 积分 要 简单 ,这 样 , 相 比 于 “最 大 似 然 模 型 选择 法 ”而 言 , 这 种 “ 贝 叶 斯 模 

型 选择 法 "的 计算 并 不 显得 过 于 复杂 了 。 

当 模 型 存在 如 下 退化 情况 时 可 能 会 引起 问题 , 即 当 几 个 参数 同时 改变 而 分 类 准则 却 固定 
不 变 ( 因 而 似 然 也 不 变 ) 的 情况 。 这 种 退化 的 情况 会 导致 * 过 分 计数 ”(over counting) 而 修改 了 
特征 空间 的 体积 。 在 神经 网 络 模 型 中 ,由 于 其 中 的 参数 化 方法 容许 存在 各 种 等 价 的 权 配 置 方 
案 , 因 而 这 种 退化 现象 是 很 常见 的 (第 6 章 )。 对 这 种 情况 ,我 们 必须 在 式 (42) 的 右边 乘 上 8 的 


退化 项 以 对 Occam 因子 的 改变 ,这 样 才 可 获得 证 据 因子 的 恰当 的 估计 (习题 43 ) 。 
贝 叶 斯 模型 选择 与 没有 免费 的 午餐 定理 

看 起 来 好 像 统计 模式 识别 的 两 个 深层 概念 间 存 在 根本 的 矛盾 。 一 方面 没有 免费 的 午餐 
定理 "表明 在 没有 任何 先 验 信息 的 条 件 下 ,没有 任何 理由 偏爱 任何 一 种 分 类 算法 。 而 另 一 方 
面 ,“ 贝 叶 斯 模型 选择 算法 ”又 确实 给 出 了 在 理论 上 有 根 有 据 的 结论 使 我 们 可 以 放心 地 选择 两 
个 分 类 算法 中 较 好 的 一 个 。 

考虑 两 个 “复合 "算法 ,算法 A 和 算法 B, 其 中 的 每 个 算法 又 都 可 能 用 到 另外 两 个 算法 ( 记 
作 算 法 1 和 算法 2) 。 对 任 给 的 问题 ,算法 A 采用 了 “ 贝 叶 斯 模型 选择 方法 ”, 选 出 并 使 用 算 
法 1 和 算法 2 当中 较 好 的 一 个 。 而 算法 B 则 采用 “ 反 贝 叶 斯 模型 选择 方法 ”, 即 只 使 用 算法 1 
和 算法 2 当中 较 差 的 一 个 。 那 么 ,算法 A 的 性 能 将 可 靠 地 比 算法 B 优越 一 一 这 与 "没有 免费 
的 午餐 定理 ”矛盾 。 

解决 上 述 这 种 表面 的 牙 盾 的 出 路 何在 呢 ?” 在 “ 贝 叶 斯 模型 选择 ”中 ,我 们 通常 假定 模型 在 
整个 模型 空间 7t 中 是 均匀 分 布 的 ,而 忽略 了 先 验 信息 。 这 种 假定 并 没有 考虑 到 特定 模型 与 最 
终 目标 函数 的 对 应 方式 (也 就 是 说 ,从 输入 数据 到 类 别 标 记 的 映射 方式 )。 因 此 “ 贝 叶 斯 模型 选 


H = (45) 
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择 法 ”通常 对 应 于 采用 了 一 种 目标 聘 数 非 均 匀 分 布 的 先 验 信息 。 并 且 , 由 于 模型 选择 存在 随意 
性 ,上 述 的 非 均 匀 的 先 验 分 布 也 会 因此 发 生 改 变 。 事 实 上 ,这 种 模型 选择 的 随意 性 在 统计 学 中 
已 经 广为人知 。 一 个 真正 好 的 实践 者 是 不 会 运用 所 谓 的 “不 偏 祖 原 则 ”(principle of indiffer- 
ence) ,而 武断 地 假定 先 验 模型 一 定 是 均匀 分 布 的 ,如 同 “ 贝 叶 斯 模型 选择 ”所 要 求 那样 。 确 实 ， 
如 果 不 仔 细 研 究 模 型 选择 过 程 ,选择 一 个 剪裁 过 的 先 验 模型 ,那么 将 很 容易 导致 许多 统计 学 文 
献 中 的 “ 悖 论 ” 问 题 ( 习 题 39). 

“没有 人 免费 的 午餐 定理 ”同时 也 表明 ;如果 存在 某 种 特定 的 非 均匀 的 先 验 分 布 ,那么 就 又 可 
能 允许 茶 个 算法 可 以 得 到 比 随 机 猜测 更 好 (其 至 有 可 能 是 “最 好 ”的 ) 的 结果 。 从 实际 现象 来 
看 “ 贝 叶 斯 模型 选择 ?相当 于 恰好 采用 了 某 种 与 现实 世界 中 的 问题 十 分 “匹配 ?的 非 均匀 先 验 。 
9.6.6 问题 平均 误差 率 

前 面 我 们 已 经 说 明 , 只 用 比较 少 的 样品 所 涉及 的 分 类 器 对 新 数据 进行 分 类 时 ,性 能 是 不 会 
好 的 。 所 以 分 类 误 善 率 应 是 样品 数目 的 一 个 函数 , 当 无 限 增 大 时 ,这 个 误差 率 会 降低 到 某 个 
极 小 值 。 为 了 方便 分 析 问 题 ,我 们 必须 作 这 样 几 步 工作 : 

1. 根据 样本 来 估计 未 知 参 数 。 

2. 用 这 些 佑 计 值 去 确定 分 类 上 规 。 

3. 对 得 到 的 分 类 器 计算 其 分 类 误差 率 。 

一 般 情况 下 ,这 一 分 析 过 程 十 分 复杂 ,最 后 的 结果 同 许多 因素 有 关 , 例 如 同 抽取 的 特定 样 
本 有 关 ，, 同 决定 分 类 器 的 方法 有 关 , 同 假定 的 未 知 概率 的 结构 有 关 。 但 大 用 直方 图 作为 未 知 概 
率 密度 的 近似 ,并 作 某 些 适 当 的 平均 ,那么 我 们 还 是 可 以 得 到 一 些 有 启发 意义 的 结论 。 

考虑 一 个 先 验 概率 相同 的 二 类 问题 。 假 设 把 特征 空间 划分 成 m 个 不 相交 的 单元 C1，…， 
C .。 如 果 在 个 单元 中 条 件 概率 密度 p(x|w),plx|w) 的 变化 不 明显 ,那么 它们 就 不 需要 知道 
x 的 确切 值 ,而 只 要 知道 x 落 在 哪 一 个 单元 中 就 够 了 。 这 样 就 把 问题 简化 为 离散 情况 了 。 设 
p; 二 P(XECi|w1) ,gi 一 P(xXECi|w;) ,因为 已 假定 Plw)==P(lws)= 二 1/2, 所 以 向 量 p= (pi ,ps， 
… ,pm)' 和 gq 二 (qi,92，"… ,qn)' 就 天 定 了 问题 的 概率 结构 。 于 是 贝 叶 斯 判定 规则 就 是 ;如 果 &x 
落 在 C ; 中 , 且 如 果 p:>q MIE x FAT wi. BE PITA A AAR REE A 


P(Elp, q) = = 5 mint, qi] (46) 


当 参 数 p 和 q 都 未 知 ， 并 且 必 须 由 样本 集 去 估计 出 时 ， 这 时 得 到 的 误差 率 比 上 述 贝 叶 斯 误 
差 率 要 大 。 确 切 地 解答 将 同样 本 集 本 和 刁 有 关 , 同 获得 分 类 器 的 方法 也 有 有关。 假定 样本 集中 一 
半 标 记 为 wm , 另 一 半 标 记 为 wo, 用 ny 表示 落 在 Cc; 中 并 标记 为 w; 的 样本 个 数 , 再 假定 我 们 将 最 
大 似 然 估计 p;= 二 2na/n,g; 二 2nw/n 视 作 真 值 来 设计 分 类 器 , 则 此 时 的 分 类 判定 变 成 :如 果 x 落 
在 C; 中 , 且 如 果 ng ne, WG x IRF w. 和 ;这 个 分 类 器 的 误差 率 是 

P(E\p, q, D) = ; >> ait Ra pi (47) 
要 计算 这 个 误差 率 必须 知道 真正 的 条 件 概率 pA qg, 以 及 训练 样本 ,或 者 至 少 必 须知 道 数 目 
nj;。 不 同 的 个 随机 样本 集 将 会 对 P(E|p,q,;D) 产 生 不 同 的 数值 。 我 们 可 以 利用 这 样 一 个 
事实 , 即 n 具有 多 项 式 分 布 ,这 是 对 n 个 随机 样本 的 全 部 可 能 的 集合 求 平均 值得 到 的 ,得 到 平 
均 误差 概率 P(E | p,q,n)。 粗 略 地 说 ,这 是 我 们 对 个 样本 所 能 期 望 的 典型 误差 率 。 然 而 要 
计算 这 个 平均 误差 率 还 要 求知 道 一 个 基本 问题 , 即 p 和 9 的 值 。 如 果 p 和 9q 相差 很 大 , 则 平均 
误差 率 接近 于 零 , 而 若 p 和 9q 很 接近 , 则 平均 误差 率 就 接近 1/2。 
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消除 答案 对 这 个 问题 依赖 性 的 彻底 的 办 法 是 在 所 有 可 能 的 问题 空间 上 对 解答 求 平均 。 这 . 


就 是 说 ,对 未 知 参 数 p Al q 假定 一 个 先 验 分 布 , 然 后 对 此 p A qk P(E|p,q,n) 的 平均 值 。 这 
样 就 可 以 得 到 一 个 所 谓 的 “问题 平均 误差 概率 ”(problem-average probability of error), 记 作 
P(E|m,n) ;这 是 一 个 仅 同 单元 数 m, 样品 数 n 和 先 验 分 布 有 关 的 一 个 量 。 

自然 , 选 定 p 和 q 的 先 验 分 布 是 颇 难 的 。 为 偏向 于 容易 的 问题 ,可 选 已 接近 于 0, 而 对 于 
困难 的 问题 , 则 选择 P 接近 1/2。 还 没有 明确 的 办 法 使 选择 的 先 验 分 布 同 通常 遇 到 的 问题 相 
“匹配 ”。 一 种 大 胆 的 做 法 就 是 认为 各 种 问题 的 出 现 是 “均匀 分 布 ” 的 ,也 就 是 说 ,假定 向 量 p 和 
q 是 均匀 分 布 在 如 下 的 "单纯 型 >(simplex) 上 


Pi 2 0 dpi = | 
pi (48) 
q; 2 O >》 qi = | 
i=! 
注意 这 种 p 和 g 空 间 的 “均匀 分 布 ? 并 不 对 应 于 9. 6. 5 节 所 声称 的 先 验 分 布 或 目标 函数 的 “ 均 


Jat Ai” o 
图 9-14 综述 了 仿真 试验 ,并 显示 当 样 本 数 n 固定 时 ,P 作为 单元 数 m 的 函数 曲线 。 从 图 
中 可 以 看 出 , 当 样 品 数 无 限 多 时 ,最 大 似 然 估计 是 非常 好 的 ,而 PP 是 贝 叶 斯 误差 率 在 所 有 问题 
空间 上 的 平均 。 对 应 于 P(E|m,oo) 的 曲线 从 m=1 时 值 的 0.5 BA m 无 限 增加 而 迅速 趋 于 
0. 25.4 m=1 时 ,P=0. 5, 这 也 是 合理 的 ,因为 这 正好 是 两 个 极端 值 0 和 0. 5 的 一 半 。 对 问题 
作 平 均 的 误差 率 这 样 高 只 是 表明 有 许多 毫 无 解决 办 法 的 困难 的 分 类 问题 被 包含 在 这 个 平均 值 
中 ,显然 并 非 一 般 的 模式 识 曾 问题 都 有 这 样 高 的 误差 率 。 
图 9-14 2- 类 问题 对 给 定 Elna) 
样本 个 数 的 误差 率 E, 可 
以 通过 如 下 方式 来 估计 , 即 0.45 
划分 特征 空间 为 m 个 相同 
尺寸 的 单元 ,并 且 依 据 落 在 ”0°%0 
该 单元 的 最 频繁 的 类 别 对 
一 个 测试 样本 标记 。 本 图 
显示 了 在 给 定 m 和 "的 情 
沉 下 对 大 量 的 随机 的 问题 
进行 平均 的 “问题 平均 误差 ozs 
率 ” 
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然而 这 些 曲线 的 最 有 趣 的 性 质 是 :对 每 一 有 限 样本 数 的 曲线 来 说 ,都 有 一 个 最 佳 的 单元 . 


数 。 这 一 点 表明 , 当 样 本 数 有 限时 ,如 果 特 征 很 多 的 话 , 则 分 类 器 的 性 能 会 变 坏 。 在 这 种 情况 
下 为 何 出 现 这 种 现象 是 很 清楚 的 ,因为 在 开始 时 ,增加 单元 数 可 以 使 两 类 的 “类 条 件 概率 分 布 ” 
(分 别 被 表示 为 向 量 p,q) 更 容易 区 分 ,从 而 可 以 使 分 类 器 性 能 得 到 改善 。 但 当 单 元 数 太 多 时 ， 
就 会 没有 足够 的 样品 去 充填 这 些 单元 ,结果 在 多 数 单元 中 的 样本 数目 变 为 零 , 于 是 不 得 不 回 过 
头 来 采用 效率 不 高 的 先 验 概率 来 进行 分 类 。 所 以 对 有 限 的 n, 4 m 趋 于 无 穷 时 ,P(E|m,n) 就 
趋 于 1/2, 

使 PLE|m,n) 取 极 小 值 的 m 是 非常 小 的 。 当 n= 二 500 个 样本 时 ,大 约 m 一 20。 如 果 我 们 
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把 每 一 个 特征 坐标 分 成 7 个 区 间 来 划分 单元 , 则 对 d ARRERA m= lS A. A /二 2, 这 当 
然 是 极 粗 糙 的 离散 化 。 但 这 意味 着 若 采 用 多 于 4 个 或 5 个 二 值 特征 , 则 不 但 不 能 改善 性 能 , 反 
而 使 性 能 变 坏 。 这 是 一 个 非常 悲观 的 结论 ,当然 平均 误差 率 为 0.25 的 这 个 结论 也 同样 是 悲观 
的 。 但 这 些 数值 是 面向 全 部 可 能 的 问题 时 的 先 验 概率 的 结果 。 对 一 个 特定 问题 来 说 ,并 不 这 
么 严重 。 从 上 述 分 析 所 能 学 到 的 要 点 有 两 个 :其 一 是 ,分 类 器 的 性 能 确实 依赖 于 训练 样本 数 ; 
另 一 个 是 , 当 样 本 数 固定 时 ,特征 数 增加 到 超过 某 一 点 后 ,其 效果 可 能 适得其反 。 
9.6.7 从 学 习 曲 线 预测 最 终 性 能 

对 一 个 庞大 的 数据 集 进行 训练 的 计算 量 是 巨大 的 ,在 高 性 能 的 计算 机 上 有 时 可 能 花费 数 
天 、 数 周 甚至 几 个 月 的 时 间 。 如 果 我 们 准备 研究 和 比较 几 种 不 同 的 分 类 技术 ,那么 所 需 的 总 的 
时 间 通 常 长 得 无 法 接受 。 于 是 我 们 试图 找到 一 个 无 需 对 全 部 数据 都 充分 训练 就 可 对 不 同 的 分 
类 器 进行 比较 的 技术 。 如 果 我 们 可 以 快速 有 效 的 找 出 最 有 和 希望 的 模型 ,那么 剩 下 的 只 不 过 是 
对 它 进行 充分 训练 就 可 以 了 。 

方法 之 一 是 用 分 类 器 对 相对 较 少 的 样本 进行 训练 后 的 性 能 来 预测 它 对 一 个 非常 大 的 训练 
集 的 性 能 。 上 述 性 能 可 以 用 测试 误差 对 训练 集 的 斥 才 的 函数 关系 图 来 揭示 ,如 图 9-15, 这 也 
是 一 种 (特殊 形式 的 ) 学 习 曲 线 ”。 图 9-15 显示 了 对 独立 的 不 同 尺 寸 <n 的 训练 集 对 分 类 
器 充分 训练 后 所 得 到 的 误差 率 (注意 ,这 种 形式 的 学 习 曲 线 是 单调 下 降 的 ,而 不 像 图 9-9 那 种 
曲线 存在 “过 训练 ”(over-training) 的 现象 )。 

图 9-15 3 个 分 类 器 的 测试 误差 ,每 个 都 用 x 个 Eresi 

样本 充分 地 训练 。 误 差 以 典型 的 指数 律 单调 下 降 。 

YES n = 500 的 测试 误 尝 和 nn =10000 的 渐 近 误 

差 的 排序 情况 是 不 同 的 





2000 4000 6000 8000 10000 
对 很 多 现实 问题 ,上 述 单调 下 降 的 曲线 可 以 用 指数 函数 
Eest =at+— (49) 
n 
充分 描述 ,其 中 a,b 和 a 之 1 取决 于 具体 分 类 器 和 分 类 任务 。 
对 非常 大 的 的 极端 情况 ,训练 误差 将 等 同 于 测试 误差 ,因为 它们 都 代表 了 整个 问题 空 
间 。 这 样 我 们 可 以 用 另 一 个 指数 函数 


C 
Erain =a— 7B (50) 
n 


来 描述 训练 误差 , 它 有 同样 的 渐 近 误差 值 。 

如 果 该 分 类 器 的 威力 足够 强 ,那么 该 渐 近 误差 a 将 等 于 贝 叶 斯 误差 。 而且, 如 此 一 个 威力 
强大 的 分 类 器 可 以 很 快 地 完美 地 .学习 好 一 个 小 的 训练 样本 集 , 使 得 训练 误差 (相对 于 x 来 
说 ) 很 快 在 较 小 的 x 处 取 零 值 ,如 图 9-16 所 示 。 

下 面 我 们 来 估计 渐 近 误差 < ,利用 一 个 小 规模 和 中 规模 的 训练 集 上 的 训练 误差 和 测试 误 
差 。 根 据 式 (49) 和 (50) ,我 们 有 
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图 9-16 ÆRA DERT n 的 数据 子 集 上 的 训练 误 E 
差 和 测试 误差 曲线 。 当 很 小 时 ,由 于 训练 样本 可 以 ”"* 
锌 完美 的 学 习 . 所 以 对 应 的 训练 误差 为 零 。 但 尺寸 趋 。 ，。 
于 正 无 穷 大 时 ,训练 误差 和 测试 误差 都 趋向 于 同一 个 
渐 近 误差 值 <。 当 分 类 器 足够 强大 ,并 且 数 据 是 独立 同 





分 布 采 样 的 ,那么 该 渐 近 误差 就 是 贝 叶 斯 误差 率 Enr é 
2000 4000 6000 uu 10000” 
b C 
Eresi + Etrain = 24 + — > — -3 (51) 
n n 
b C 
Esa wi Erain = ne + np 


如 果 假 定 a==8 Mb=c ,那么 式 (51) 可 写成 
Eresi + Erun = 2a 

2b (52) 

Eresi zg Eram = 


nie 


在 上 述 假定 下 ,对 小 规模 和 中 规模 的 n' 测 量 其 训练 误差 和 测试 误差 就 成 了 很 简单 的 事 。 将 它 
绘 在 log-log 坐标 空间 , 即 可 估计 出 a, 如 图 9-17 所 示 。 即 使 在 ==8 和 4 二 c 不 成 立 的 情况 下 ， 
差 值 Ei 一 Es 仍然 能 够 在 log-log 图 中 保持 直线 形式 ,并 且 求 和 项 s==b5 十 cc 可 以 从 
logl Few 十 下 co 曲线 中 读 出 。 对 于 某 些 服 从 2 + c=; 的 bp 和 < 的 经 验 值 ,cE 十 bE, 也 是 一 
条 直线 ,从 而 a 可 以 估计 出 (习题 42)。 一 旦 已 经 对 每 个 候选 分 类 器 估计 出 a 值 ,那么 具有 最 
小 的 a 的 分 类 器 就 可 被 选取 ,并 且 接 着 在 完整 的 训练 集 D 上 进行 充分 的 训练 。 

图 9-17 如 果 测 试 误差 和 训练 误 log[E] 

差 对 样本 集 太 十 的 函数 关系 服从 — logf[b+c]=log[2b) 

指数 律 ( 式 (49) 和 (50)), 那 么 在 

log-log 坐标 平面 上 ,误差 的 和 与 误 

差 的 差 的 对 数 都 是 直线 。 渐 近 误 

差 a 简单 的 就 是 log[E + Ew | 






`~ log [Eve Eran] ” log{2a] 


lög Erer E train} 





log[n'] 


9.6.8 单个 分 割 平面 的 能 力 

考虑 对 d 维 空 间 用 超 平面 wx + wo = 0 进行 分 割 的 问题 ,其 中 超 平面 可 以 用 感知 器 算法 
来 训练 (第 5 章 )。 假 定 我 们 及 n 个 位 于 一 般 位 置 的 样本 点 (d 维 空间 的 点 ,如 果 没 有 以 十 1 个 
AATE d 一 1 维 子 空间 时 , 则 称 这 些 点 是 在 “一 般 位 置 "”)。 假 定 每 一 个 点 都 标记 为 mw 或 者 o 
类 。 在 所 有 这 些 4 维 中 的 nn 个 点 ,一 共有 2" 个 可 能 的 二 分 法 方案 ,但 是 其 中 只 有 占 到 fnd) 
比率 的 “线性 二 分 法 ”(linear dichotomy)。 后 者 是 这 样 一 些 二 分 法 ,其 中 存在 某 一 超 平面 能 把 
属于 类 的 点 与 属于 ow 类 的 点 分 割 开 来 。 这 一 比率 fl(n,d) 可 以 表示 为 (习题 41) 
f(n,d)= | 2 (=) a e (53) 


ot ; n>d+l 
图 9-18 m H JLF} d (AWA. 
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为 了 更 充分 地 理解 上 述 结论 ,考虑 4 个 点 的 一 维 情况 。 根 据 式 (53), 我 们 有 f(n=4， 
494| d==1) 二 0.5。 下 表 显 示 所 有 16 个 可 能 的 模式 标记 (例如 0010 表示 的 是 类 别 标记 w wa wz ol )。 
表 中 的 “x” 号 是 指 这 种 排列 方式 是 “线性 可 分 ”的 ,也 就 是 说 单 点 的 分 界面 就 可 把 所 有 o RR 

式 与 w; 类 模式 分 割 开 。 根 据 式 (53) 也 确实 有 一 半 的 点 (8/16) 可 以 线性 分 开 。 


可 线性 可 线性 


Hj Z 
Labels 4} FF? Labels Ay FF? 





从 图 9-18 可 以 看 出 , 当 点 数 nn 之 a 十 1 时 ,所 有 二 分 法 都 是 线性 的 。 这 意味 着 一 个 超 平面 
并 不 受到 对 d 十 1 或 更 少 的 点 进行 正确 分 类 时 所 要 求 的 “过 约束 ”。 事 实 上 ,如 果 d 很 大 , 则 只 
AA n HB 2d + 1) 的 相当 比率 时 ,问题 采 开 始 变 得 困难 。 在 n=2(4 十 1) 处 的 这 个 点 ,有 时 
被 称 为 超 平面 的 “能 力 ”(capacity)。 在 这 里 ,可 能 的 二 分 法 当中 仍然 有 一 半 的 线性 二 分 法 。 于 
是 , 当 样 本 数 尚 未 达到 特征 空间 或 问题 集合 的 维 数 的 着 干 倍 时 ,一 个 线性 判别 不 会 有 效 地 “ 超 
定 ”(over-determined)。 这 通常 表达 为 “在 训练 结束 之 前 ,推广 是 不 可 能 进行 的 ”。 男 一 方 
面 ,从 平均 意义 上 看 ,假如 特征 空间 的 维 数 大 于 n/2 一 1, 那么 也 不 能 期 望 一 个 线性 分 类 器 能 
够 “匹配 ”给 定 的 问题 。 

fin 


,d) 
1.0 
0.8 \\ 
0.6 


0.2 


l 2 3 4 5 (atl) 


图 9-18 4 维 空间 中 的 个 样本 点 的 线性 二 分 法 所 占 的 比率 ,由 式 (53) 给 出 


9.7 组 合 分 类 器 


我 们 已 经 提 到 某 种 分 类 器 , 它 的 输出 要 根据 若干 “分 量 分 类 器 "(或 “ 子 分 类 器 ”) 的 输出 而 

定 (9. 5.1 节 和 9.5.2 节 )。 这 种 总 体 分 类 器 有 时 也 称 为 “混合 专家 ”(mixture-of-expert) 模 型 ， 
或 “分 类 器 系 综 ”(ensemble classifier) “模块 式 分 类 器 ”“ 投 票 表决 分 类 器 ”。 这 种 “分 类 器 系 

综 ” 尤 其 当 每 个 分 量 分 类 器 都 分 别 对 特征 空间 的 不 同 区 域 进行 了 充分 训练 (因而 成 为 一 个 “ 专 

家 ”) 时 ,将 特别 有 效 。 我 们 首先 考虑 “分 量 分 类 器 ”直接 给 出 概率 估计 的 情况 。 然 后 在 9.7.2 


O 译 者 注 : 换 句 话说 ,如 果 只 用 较 少 的 训练 样本 训练 线性 判别 函数 ,那么 它 将 无 法 对 新 样本 有 效 地 推广 。 
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节 中 将 考虑 "分 量 分 类 器 ”直接 给 出 “c 中 取 1” 的 排序 的 情况 。 
9.7.1 有 判别 函数 的 分 量 分 类 器 

假设 每 个 模式 都 是 取 自 某 混合 模型 (mixture model) ,首先 根据 分 布 P(r | x, 68) SABLE RR 
一 个 用 > 标记 的 过 程 或 函数 (1 委 r 委 上 ,0 是 参数 向 量 。 然 后 被 选 出 的 过 程 将 根据 PCy |x,0?) 
产生 一 个 输出 y( 踊 一 个 类 别 标记 ) ,其 中 的 参数 向 量 8 表示 该 过 程 的 自然 状态 (上 标 0 代表 的 
是 产生 的 模型 的 特性 。 在 下 面 , 没 有 上 标的 项 用 来 表示 分 类 器 中 的 参数 ) 。 这 样 产生 y 的 总 的 
概率 可 由 下 式 对 全 部 过 程 的 求 和 得 出 : 


k 
P(y|x, O°) = 》 P(rlx, 0°) Pcyix, 8°) (54) 


ral 


其 中 国王 [6 ,01,03 ,…,0% || 表示 全 部 有 关 的 参数 向 量 。 式 (54) 描 述 了 一 个 “混合 分 布 ”, 它 
可 以 是 连续 的 ,也 可 以 是 离散 的 。 

图 9-19 显示 出 一 个 这 样 的 系统 分 类 器 的 基本 结构 ,其 任务 是 将 训练 模式 分 成 < 类 中 的 1 
类 。 这 种 结构 适合 于 我 们 假设 的 混合 模型 。 一 个 测试 模式 x 将 被 提供 给 k 个 分 量 分 类 器 ,每 
一 个 都 输出 c 个 标量 的 判别 函数 值 (每 个 对 应 一 类 )。 这 样 对 分 量 分 类 器 r 的 c 个 判别 值 组 织 
在 一 起 ,并 记 作 g(x,60,), 并 且 有 


j=l 


分 量 分 类 器 -输出 的 全 部 判别 值 都 乘 上 一 个 标量 系数 ww 的 值 由 一 个 “ 选 通 子 系统 ”(gating 
subsystem) 给 定 , 其 中 具有 参数 go ,下面 我 们 将 使 用 混合 密度 的 条 件 均值 ,可 由 式 (54) 计 算 : 


k 
a = Ely|x, O]=) wm (56) 
r=] 


其 中 u, 代表 与 Pl(y|x,8°) 有 关 的 条 件 均 值 。 
图 9-19 由 大 个 “分 量 分 类 器 ” £ 
或 “专家 ”组 成 的 “混和 专家 ”组 合 
分 类 器 结构 。 其 中 每 个 分 量 分 类 
投票 系统 
器 都 有 一 个 可 训练 的 参数 8 ,1 二 Econ 
1,2,…,k。 对 每 个 输入 模式 x, f 


个 分 量 分 类 器 ;都 给 出 一 个 类 别 aa 
RAR g; =P(r| x6 ) 的 估计 输 
出 。 这 些 输出 接着 通过 “ 选 通 子 


系统 "用 加 权 , 并 送 入 “投票 系 | gix,0)f g(x, 4) g(x. 9) 


统 "表决 ,得 到 最 后 判别 结果 
分 量 分 量 分 量 
| | | 


“混合 专家 ”结构 被 训练 使 得 每 个 分 量 分 类 器 都 能 对 于 混合 模型 中 的 一 个 过 程 ,而 “ 选 通 子 
系统 " 则 表达 了 式 (54) 中 的 混合 参数 P(r|x,8) 的 模型 。 最 终 的 目标 是 寻找 一 组 参数 ,可 以 最 
大 化 对 集合 力 中 个 训练 样本 x! ,…x" BT BADR A BL 
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1(D, ©) = Sn (> P(r|x', O0)P(y' |x’, 可 (57) 
izi (EI 
一 个 直接 的 求解 法 是 使 用 对 参数 的 梯度 下 降 ,其 中 导数 为 (习题 44) 
rE = > P(riy', x!) Int Py! x 0,)] r=1,..., k (58) 
和 
nam = > Pen X ) 一 wy) (59) 


i=] 
这 里 Prly BRE HEAERA x MH YR THAR. MA 就 是 给 
定 输入 x 选择 过 程 r 的 先 验 概率 PC(r|x')。 根 据 式 (59) 可 知 ,梯度 下 降 法 的 使 用 使 得 先 验 概率 
逐渐 收敛 于 后 验 概 率 上 。 人 也 可 采用 期 望 最 大 化 (EM) 算 法 来 训练 本 结构 (第 3 章 )。 

最 终 的 判决 是 简单 地 选择 经 投票 系统 后 的 具有 最 大 判别 值 的 那个 类 别 。 或 者 也 可 对 每 个 
分 量 分 类 器 采取 “ 胜 者 全 取 ” 策 略 ,也 就 是 分 量 分 类 器 只 保留 具有 最 大 判别 值 g 的 那个 类 别 。 
这 种 策略 显然 仅 是 次 优 的 ,但 是 由 于 其 简单 易 用 ,并 且 当 每 一 个 专家 都 专门 训练 了 特征 空间 中 
相互 分 离 的 区 域 时 ,也 能 工作 得 很 好 。 

我 们 跳 过 了 一 个 问题 : 即 应 该 采用 多 少 个 分 量 分 类 器 呢 ? 当然 ,如 果 我 们 已 知 关于 混合 密 
度 的 分 量 过 程 的 数目 的 先 验 知 识 ,那么 就 可 用 它 来 指导 大 的 选择 ,但 在 缺少 上 述 信息 的 前 提 
下 ,我 们 可 以 去 试探 不 同 的 x 值 ,由 此 来 定制 完全 的 系 综 分 类 器 的 偏离 和 方差 。 典 型 的 情况 
是 ,如 果 混 合 密度 中 的 真实 分 量 个 数 是 x* PARK SK )“ 专 家 混合 ”所 起 的 组 合 分 类 器 
的 推广 性 能 一 般 比 x 个 (k 二 k* )“ 混 合 专家 ”更 好 ,这 是 因为 多 出 来 的 那些 分 量 分 类 器 通过 复 
制 其 他 分 量 分 类 器 提供 了 宛 余 的 信息 。 
9.7.2 无 判别 函数 的 分 量 分 类 器 

有 时 我 们 会 利用 一 些 充分 训练 了 的 分 量 分 类 器 来 构造 系统 分 类 器 ,其 中 可 能 有 些 分 量 分 
类 器 自身 并 不 包含 判别 函数 。 例 如 ,我 们 可 能 有 4 个 分 量 分 类 器 :一 个 k- 近 邻 分 类 妖 , 一 个 判 
定 树 ,一 个 神经 网 络 和 一 个 基于 规则 的 分 类 器 (它们 都 用 同样 的 问题 训练 过 )。 神 经 网 络 给 出 
的 是 < 类 模拟 值 ,规则 系统 只 给 出 某 个 类 别 标 记 (c 中 取 1) ,大 -近邻 分 类 器 给 出 的 是 c 类 的 排 
序 关 系 。 

为 了 组 合 使 用 这 些 分 量 分 类 器 ,我们 必须 将 它们 的 输出 都 转化 为 服从 式 (55) 的 判别 值 ,从 
而 可 再 次 采用 图 9-19 中 的 框架 。 实 现 上 述 目标 的 一 些 最 简单 的 启发 式 规 则 列举 如 下 : 

输出 模拟 值 ” 如 果 分 量 分 类 器 的 输出 是 模拟 值 g;, 则 可 以 用 “ 软 极 大 法 ”(softmax) 将 其 转 
化 为 

efi 
as 2 1 es 

输出 排序 关系 ”如 果 输 出 是 一 个 排序 表 , 我 们 可 以 假设 判别 函数 值 的 次 序 同 它 一 致 ,但 要 
进行 归 一 化 ,以 保证 其 和 为 1。 

输出 “c 中 取 1” 如 果 输 出 是 c 中 取 1 的 形态 ,其 中 一 个 类 别 被 确定 ,我 们 令 g =1.0 R 
表 对 应 于 被 选 定 的 类 别 7 ,而 对 其 他 类 别 都 取 零 。 

下 表 给 出 了 一 些 简 单 的 例子 。 


(60) 





独立 于 算法 的 机 器 学 习 m | 40] 


E 拟 值 排序 关系 c 中 取 1 
gi &: gi Bi gi Bi 
0.4 0. 158 3 4/21=0.194 0 0.9 
0. 6 0.193 6 1/21=0, 048 l 1.0 
0.9 0. 260 5 2/21=0. 095 0 0.0 
0. 3 0.143 ] 6/210. 286 Q 0. 0 
0.2 0. 129 2 5/21=0, 238 0 0,0 
0.1 0. 111 4 3/21=0. 143 Q 0.0 


— FL Sy BEd AR ae 89 E O BE HS FS LS 5} Ee SE HBB BT LB EP OK. 
“eH TAR BPE BAAR SI) RUM. ÆN AR al a AFA FUL ve FY) ott Eb a 
行 投 票 表决 的 场合 。 


本 章 小 结 


“没有 免费 午餐 定理 ”说 明 , 在 缺少 关于 问题 的 先 验 信息 的 情况 下 ,没有 任何 理由 可 以 “ 偏 
爱 ” 某 种 学 习 算 法 或 分 类 模型 。“ 丑 小 鸭 定 理 ” 说 明 ,在 给 定 一 个 有 限 的 用 于 区 别 不 同 模式 的 特 
征集 的 前 提 下 ,两 个 不 同 模式 所 共享 的 谓词 的 数目 是 一 个 常量 ,并 且 该 值 并 不 依赖 于 二 者 择 一 
的 选择 。 以 上 两 个 定理 强调 的 都 是 :有 必要 深入 地 考察 恰当 的 特征 以 及 数据 与 算法 的 “匹配 ” 
程度 。 不 存在 与 问题 领域 无 关 的 “最 优 ” 的 学 习 算 法 或 模式 识别 系统 ,也 不 存在 与 问题 无 关 的 
“最 优 ” 的 特征 。 简 言 之 ,单纯 依赖 于 正规 的 理论 或 算法 都 是 不 够 的 ,模式 分 类 本 质 上 属于 一 门 
实验 科学 。 

有 两 种 方式 可 以 描述 分 类 器 和 给 定 问 题 的 “匹配 ?程度 ,它们 是 偏差 和 方差 “偏差 > 度量 
的 是 “匹配 ”的 “准确 度 ” 或 “匹配 品质 ”( 一 个 高 的 偏差 意味 着 很 差 的 匹配 ) ,而 方差 测量 的 是 匹 
配 的 “精确 度 ” 或 匹配 的 “具体 性 ”( 一 个 高 的 方差 意味 着 较 弱 的 匹配 )。“ 偏 差 -方差 两 难 问题 ” 
是 说 如 果 增 加 一 个 学 习 算 法 的 灵活 性 ,能 够 自 适应 地 “匹配 ”训练 数据 (例如 ,具有 更 多 的 自由 
参数 ) ,那么 它 将 具有 更 小 的 偏差 ,但 会 有 更 大 的 方差 。 对 分 类 问题 而 言 , 偏 差 和 方差 之 间 存 在 
某 种 非 线性 关系 。 并 且 在 分 类 中 ,小 的 方差 要 比 小 的 偏差 的 意义 更 为 重要 。 如 果 分 类 器 的 模 
型 可 以 用 二 进 制 串 的 形式 来 表达 ,那么 “最 小 描述 长 度 原理 ”(MDL) 说 明 , 最 优 的 模型 就 是 那 
个 具有 最 短 的 模型 描述 和 训练 数据 的 模型 。 这 个 普遍 的 原理 可 以 推广 到 某 些 特定 的 模型 上 
去 ,比如 神经 网 络 的 权 值 衰减 和 前 枝 的 启发 式 , 某 些 特定 模型 的 正则 化 ,等 等 。 

“ 重 采样 技术 ”背后 的 思想 内 涵 在 于 ,从 给 定 的 数据 集中 (例如 自助 法 , 刀 切 法 ,boosting 法 
和 bagging 法 ) 抽 取 多 个 数据 子 集 ,使 得 有 可 能 计算 任意 统计 量 的 值 及 其 范围 。 在 分 类 中 ， 
boosting 法 能 够 调节 整个 分 类 器 对 特定 问题 的 匹配 程度 (也 就 是 “偏差 和 方差 ”的 关系 ), 其 至 
适用 于 任意 基本 的 分 类 器 。 在 “基于 查询 的 学 习 算 法 ”中 ,分 类 器 将 对 查询 的 模式 提交 给 一 个 
“ 神 论 ”, 由 “ 神 论 ” 给 出 其 类 别 标记 。 当 提供 查询 的 模式 是 其 中 * 最 富 信息 ”的 模式 一 一 也 即 现 
有 分 类 器 最 拿 不 准 的 模式 一 一 的 时 候 , 这 种 学 习 算 法 将 最 有 效 。 

有 许多 种 方法 可 以 用 于 评估 分 类 器 的 最 终 性 能 ,以 及 比较 不 同 分 类 器 的 性 能 。 每 种 方法 
都 基于 一 些 假定 ,例如 参数 模型 是 已 知 的 ,或 已 知 学 习 曲 线 的 形式 .“ 交 叉 验 证 >“ 刀 切 法 ”和 
“自助 法 ”是 一 些 密切 相关 的 技术 ,它们 都 利用 训练 样本 的 一 个 子 集 来 估计 分 类 器 的 准确 度 。 
“最 大 似 然 模型 选择 法 ”和 “ 贝 叶 斯 模型 选择 法 ”, 是 原先 用 于 参数 估计 的 相应 算法 的 推广 ,可 用 
于 不 同 模型 的 比较 和 选择 。“ 贝 叶 斯 模型 选择 法 ”的 一 个 中 心 概念 是 “Occam 因子 ”, 它 刻画 了 
所 允许 的 参数 空间 的 体积 因 训 练 数据 的 加 入 (约束 ) 而 塌 的 情况 。 这 种 方法 惩罚 哪些 “过 分 
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复杂 ”的 模型 ,其 中 “过 分 复杂 ”是 相对 具体 数据 集 而 言 的 。 


把 几 个 分 离 的 “分 量 分 类 器 ”或 “专家 分 类 器 ”的 输出 结果 组 合 在 一 起 的 方法 有 很 多 种 , 比 
如 线性 加 权 , 胜 者 全 取 , 等 等 。 当 各 个 分 量 分 类 器 的 判别 规则 有 所 不 同 ,以 及 能 提供 互补 的 信 
息 时 ,总 体 分 类 器 的 性 能 通常 总 是 有 所 改善 。 


文献 和 历史 评述 


“没有 免费 午餐 定理 ”出 现 于 文献 [L110] 以 及 在 Wolpert 的 有 关 推 广 性 理论 的 文集 中 
[109]。Schaffer 的 “推广 中 的 守恒 率 ” 有 该 定理 一 部 分 的 重新 表述 ,并 且 是 图 9-1 的 源 果 
[83].“ 丑 小 鸭 定 理 ? 在 L105] 中 进行 了 证 明 , 同 时 其 中 还 有 它 的 一 些 哲 学 上 的 思考 [79j。 

有 关 “ 戈 尔 莫 戈 罗 夫 复杂 度 ” 的 一 些 基 础 性 工作 出 现在 文献 L[57,58,93] 和 [94] 中 ,但 一 个 基本 的 
综述 [14] 和 Chaitin 的 著作 [15] 以 及 特别 是 Li 和 Vit aanyi 的 书 L66j 更 容易 理解 。Barron 和 Cover 最 
早 利 用 “MDL 原理 ”来 估计 密度 [7]。“MDL 原理 ”有 多 个 不 同 的 版 本 [80,81], 比如“ 赤 述 信息 准则 ” 
(akaike information criterion,，AIO)[1,2j 和 贝 叶 斯 信息 准则 CBIC)L86j( 与 标准 MDL 不 同 之 处 在 于 ， 
它们 采用 了 对 模型 加 权 惩罚 的 方式 )。 类 似 地 ,网 络 信息 准则 CNIC) 可 用 来 比较 具有 同样 结构 的 神 
经 网 络 [73]。 更 一 般 地 说 ,神经 网 络 中 的 “前 枝 ” 和 一 般 “ 正 则 化 方法 ”都 可 看 作 是 MD” 原理 的 一 种 
应 用 ,只 不 过 采用 了 不 同 的 模型 以 及 数据 拟 合 的 度量 罢了 L65J。 

卡尔 。 波 普尔 (Karl Popper) 曾 经 评论 道 :““Occam 剃刀 ?没有 多 少 实用 价值 ,因为 它 没有 给 出 明 
确 的 关于 “简单 性 的 准则 或 度量 ,”[76]。 其 他 一 些 哲 学 家 也 认同 这 个 观点 L92]。 这 里 值得 指出 的 
是 “Occam 剃刀 原则 ”( 即 牛顿 在 其 《原理 ) 一 书 中 给 出 的 ;“Natura enim simplex est,er rerum causis 
superfluis non luxuriat”( 大 自然 偏爱 简单 , 而 不 喜欢 多 余 的 浮夸 )L74j) 存 在 多 种 表述 方式 。 

其 中 有 一 个 版 本 是 伊 壁 鸠 鲁 ” 在 《给 Pythocles 的 一 封 信 》 中 提 到 的 :我 们 现在 称 之 为 ”多 
重 解释 原则 ”(principle of multiple explanation) 或 “漠视 原则 ”(principle of indifference) 的 论 
题 , 即 如 果 有 几 个 理论 都 能 与 给 定 的 数据 相 一 致 ,那么 保留 所 有 这 些 理论 。 

另 一 个 版 本 是 “ 贝 叶 斯 方法 ”的 重新 表述 “一 个 模型 (或 假设 ) 为 真 的 概率 与 以 下 两 项 的 乘 
积 成 正比 :其 一 是 设计 者 关于 该 模型 的 先 验 信任 度 ; 其 二 是 在 给 定 假设 的 条 件 下 产生 给 定数 据 
的 条 件 概 率 。” 在 这 种 情况 下 ,Occam 剃刀 将 偏爱 “简单 ?的 分 类 器 。 也 就 是 说 , 当 考 虑 到 实际 
分 类 时 所 付出 的 代价 (或 复杂 程度 ) 以 及 “有 限 合 理性 原则 ”(principle of bounded rationality) 
时 ,我 们 通常 会 满足 于 当前 的 “合适 的 解 ”, 而 没有 必要 一 定 是 “最 优 解 ”»L89]。 文 献 [45] 通 过 实 
验 研究 表明 简单 的 分 类 器 通常 也 可 以 工作 得 很 好 。 

回归 中 的 基本 “偏差 -方差 分 解 ”" 和 “偏差 -方差 两 难 问题 ”*L37 ] 在 很 多 统计 学 的 书 中 都 可 以 
找到 [16,41]。Geman 等 人 在 介绍 神经 网 络 时 给 了 一 个 很 清楚 的 表述 ,但 是 他 们 关于 “分 类 ” 
问题 的 讨论 只 是 间接 地 与 关于 “回归 ”的 数学 推导 有 关 [L35j]。 .我 们 关于 分 类 (0-1 WK BON 
讨论 是 基于 Friedman 的 重要 论文 [32]。 对 其 他 非 二 次 型 代价 阻 数 的 “偏差 -方差 分 解 ” 在 文献 
[42j 当 中 获得 研究 。 

Quenouille 于 1956 年 引进 了 “ 刀 切 法 ”[78]。“ 重 采样 技术 ”的 理论 基础 由 Efron 的 书 
[28] 清 楚 地 给 出 ,对 它 的 实践 指导 书 有 [25] 和 [L36]。 有 关 误 差 佑 计 的 “自助 法 ”技术 的 论文 是 
[48]. Breiman 尤其 积极 致力 于 介绍 和 研究 “ 重 采样 技术 ”在 估计 和 分 类 器 设计 中 的 应 用 , 例 
如 bagging 法 [11] 和 通用 的 arcing 法 [13]。AdaBoostL31j 建 立 在 Schapire AY KF “55474 


器 ”的 性 能 分 析 [84j 及 Freund 的 关于 “学 习 理 论 ” 的 早期 研究 L30] 的 基础 上 。 对 多 类 问题 的 


O 译 者 注 ; 公 元 前 342 一 公元 前 270, 古 希腊 杰出 的 唯物 主义 和 无 神 论 者 。 
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boosting 技术 要 比 两 类 问题 更 复杂 ,在 [85] 中 作 了 研究 。 Angluin 早期 的 关于 “概念 学 习 ” 的 


查询 方法 L3j] 后 来 被 Cohn 和 其 他 人 [18,20] 推 广 为 “ 主 动 学 习 ”, 并 且 成 为 聚集 大 型 数据 库 的 
工作 基础 ,比如 文献 L95 ,96]j 和 [100] 所 作 的 讨论 。 

交叉 验证 技术 由 CoverL23] 提 出 ,并 且 广 泛 地 与 分 类 方法 结合 使 用 ,比如 神经 网 络 方法 。 
在 不 同 条 件 下 的 估计 误差 的 文献 包括 [34,104] 和 [111]。 文 献 [39] 是 一 篇 出 色 的 论文 , 它 导出 
了 为 获得 分 类 准确 度 的 正确 估计 所 需 的 测试 集 的 大 小 。Bowyer 和 Phillip 的 书 涵盖 了 计算 机 
视 沉 方面 的 实验 评价 技术 [10]j, 有 不 少 方法 可 同样 适用 于 更 一 般 的 模式 分 类 领域 。 

“最 大 似 然 模型 选择 法 ”(ML-II) 最早 源 于 贝 叶 斯 本 人 ,但 早期 的 一 个 更 技术 性 的 成 果 在 
L38j 中 。Mackay 的 一 系列 论文 使 贝 叶 斯 模型 选择 方法 得 到 复兴 ,虽然 他 的 主要 兴趣 在 于 神经 
网 络 和 内 插 技 术 [L67,68,69,70]。 这 些 模型 选择 方法 与 “MDL 原则 ”[80] 及 所 谓 的 “最 大 炉 方 法 ” 
(Maximum Entropy,ME) 有 着 微妙 的 联系 。 但 对 于 后 者 ,多 少 有 些 脱离 我 们 讨论 的 主题 。Cortes 及 
其 同事 最 时 开创 了 用 学 习 曲 线 估计 分 类 器 最 终 性 能 的 研究 [21][22]。 关 于 任意 情况 下 获得 贝 叶 斯 
误差 率 时 的 收敛 性 分 析 的 研究 可 以 考虑 [6]。Hughes 最 早 进行 了 图 9-14 的 计算 [46]。 

有 关 “ 组 合 分 类 器 技术 ”的 书籍 有 [55][56], 以 及 专门 面向 神经 网 络 组 合 的 [9] 和 [88]。 
Perrone 和 Cooper 描述 了 “专家 ”意见 不 一 致 的 用 处 [75]。Dasarathy 的 书 [24] 中 有 精彩 的 理 
论 综 述 ( 但 他 更 多 关注 “多 传感器 信息 融合 ”, 而 并 非 直接 面向 多 分 类 器 组 合 ) 和 一 些 重要 的 原 
始 文献 [43,61jL97j。 最 简单 的 将 “c 中 取 1” 和 排序 关系 (rank) 转 化 为 可 以 集成 的 数值 表示 的 
启发 式 规 则 在 L63j] 中 都 有 讨论 。“ 层 次 混合 专家 结构 ”及 其 学 习 算法 最 早 在 [51][52j 中 得 到 讨 
论 。 一 种 特殊 的 层次 多 分 类 器 技术 在 L12,90,91] 和 [108] 作 了 介绍 ,其 中 每 层 都 采用 高 斯 核 函 
数 佑 计 , 在 更 高 层 上 也 采用 高 斯 核 函 数 的 投票 机 制 。 

本 章 中 我 们 跳 过 了 很 多 关于 “计算 学 习 理 论 ” 的 正规 的 研究 内 容 。 这 部 分 内 容 主 要 由 收敛 
性 分 析 `. 渐 近 性 及 计算 复杂 度 等 组 成 ,并 且 多 采用 一 些 简化 的 或 一 般 化 的 例子 来 研究 。An- 
thony 和 Biggs 的 短小 精 悍 及 优雅 的 书 L5] 是 个 很 好 的 人 门 导 引 。 更 宽 范 围 的 内 容 可 参考 [49， 
53j 和 [72]。 很 可 能 其 中 对 模式 识别 实践 者 最 有 用 的 工作 要 属于 上 面 提 到 的 “ 弱 学 习 器 ”和 
boosting 法 。 由 Valiant 提出 的 “概率 允 近 正确 性 (PAC)” 理 论 框架 [99], 在 “计算 学 习 理 论 ” 中 
影响 重大 ,但 对 指导 模式 识别 系统 的 实践 却 没 有 太 大 作用 。 一 个 稍微 宽松 一 些 的 形式 ,“ 概 率 
几乎 贝 叶 斯 *”“PAB) 在 文献 [4j 中 作 了 介绍 。 

Vapnik 和 Chervonenkis 的 “结构 化 风险 最 小 化 ”*[103j 的 工作 以 及 后 来 的 VC 理论 (例如 
VC 维 的 概念 )L101,102j] 导 出 了 期 望 误 差 率 界限 ,其 影响 主要 在 理论 学 术 界 。 这 个 误差 界限 





9,2 Ë : 

1. 一 个 关于 推广 能 力 的 “守恒 律 ? 表 明 :一 种 算法 在 某 些 学 习 条 件 下 正 的 推广 性 能 必定 会 
被 其 他 条 件 下 的 负 的 推广 性 能 所 抵消 。 考 虑 一 个 可 能 违背 这 个 规律 的 非常 简单 的 学 
习 算 法 。 对 于 每 个 测试 模式 ,所 谓 的 “多 数学 习 算 法 ”(majority learning) 的 预测 结果 
仅仅 是 训练 数据 中 最 普遍 的 那个 类 别 。 

(a) 证 明 : 对 于 一 给 定 特 征 的 所 有 两 类 问题 求 平均 ,其 “偏离 训练 集 误差 ”为 0. 5。 
(b) 对 于 “少数 学 习 算 法 ”(minority learning) 一 一 其 预测 的 类 别 标记 是 训练 数据 中 最 
少 出 现 的 类 别 , 重 复 (a) 。 
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(c) 利 用 (a) 和 (b) 的 结论 ,解释 “没有 免费 的 午餐 定理 ”的 第 2 部 分 (定理 9. 1)。 


.证明 定理 9. 1 的 第 1 部 分 , 即 对 所 有 的 目标 函数 下 求 一 致 平均 ,得 到 5 (E|F,n) 一 E。 


(FFIF,n)= 二 0。 总 结 并 解释 该 结论 。 


. 证 明定 理 9. 1 的 第 2 部 分 , 即 对 于 任何 给 定 的 训练 集 D, 对 所 有 的 下 求 一 致 平均 ,得 到 


£1(E|IF,D) 一 £2(E|F,D) 二 0。 总 结 并 解释 该 结论 。 


. 证 明定 理 9. 1 的 第 3 部 分 , 即 对 所 有 先 验 概率 PC(F) 求 一 致 平均 ,得 到 E1 Eln E Eln) 


一 0。 总 结 并 解释 该 结论 。 


. 证 明定 理 9.1 的 第 4 部 分 , 即 对 于 任何 给 定 的 训练 集 D, 对 所 有 的 P(F) 求 一 致 平均 ， 


得 到 E1(E|D) 一 Ei 《ED)。 总 结 并 解释 该 结论 。 


. 假设 一 种 算法 对 大 多 数 问 题 的 执行 效果 比 平均 情况 要 好 一 些 , 而 只 是 在 少数 问题 中 表 


现 得 糟糕 ,那么 可 以 把 该 算法 称 为 “ 较 好 ”的 算法 。 请 解释 为 什么 “没有 免费 的 午餐 害 
理 ” 并 不 排除 这 种 意义 下 “ 较 好 "算法 的 存在 。 


. 请 用 一 个 简单 的 反例 证 明 “ 没 有 免费 的 午餐 定理 ”定理 9.1) 的 各 个 部 分 中 的 "平均 "必须 是 


“一 致 ”的 。 比 如 ,想像 抽样 分 布 是 一 个 狄 拉克 6 分 布 ,其 中 心 落 在 单个 的 目标 函数 上 ,算法 1 
可 以 准确 地 预测 出 这 个 目标 函数 ,而 算法 2 却 在 任何 预测 情况 下 跟 定 理 1 相反 。 

(a) 第 1 部 分 ; 

Cb) 2 部 分 ， 

OR 3 部 分 ; 

(d) 第 4 部 分 。 


. 请 简 述 “没有 免费 的 午餐 定理 ?是 怎样 表明 你 不 能 用 训练 数据 来 区 分 可 以 很 好 推广 的 


新 问题 和 不 能 很 好 推广 的 新 问题 。 请 用 反 证 法 证 明 , 即 如 果 你 能 够 区 分 这 种 问题 , 那 
就 推翻 了 “没有 免费 的 千 餐 定理 ”。 


. 请 用 下 面 两 种 方法 证 明 式 (5) 的 3",(")= GHD =2", 


(a) 用 工 和 y 的 宕 与 系数 乘积 的 总 和 来 表示 多 项 式 (x + y)" 的 展开 式 。 然 后 ,将 xy 
做 一 简单 的 替换 。 


Cb) 用 归纳 法 证 明 这 个 关系 式 。 设 K) = D) 。 首 先 证 明 对 于 n=1 的 情况 等 
式 成 立 , 即 (1) 王 2:。 接 着 证 明 对 于 任意 n,.K(n+ 1) 二 2K (ln) 成立。 


10. 对 于 k 个 二 值 特征 fio fe SRILA A RA Venn 图 的 个 数 ( 图 9-2 表示 上 一 3 的 情 


ll. 


况 下 的 几 种 图 )。 

(a) 当 k= 二 2 时 ,有 多 少 功能 不 同 的 Venn 图 存在 ? 绘 出 这 些 图 。 对 于 每 种 情况 ,指出 
有 几 种 区 域 存在 , 即 能 表示 几 种 功能 不 同 的 模式 。 

(b) 当 k= 二 3 时 ,重复 (ay) 。 

(c) 对 于 任意 的 上 ,有 几 种 功能 不 同 的 Venn 图 ? 

书 中 给 出 了 丑小鸭 定理 (定理 9. 2) 的 一 种 证 明 。 以 下 的 问题 要 求 你 填充 一 些 细节 并 

解释 一 些 暗示 。 

(a) 书 中 的 讨论 假定 分 类 问题 没有 限制 条 件 , 它 可 以 用 最 基本 的 Venn 图 来 表示 ,其 中 给 出 
了 每 个 秩 > 的 所 有 谓词 。 如 果 我 们 知道 存在 限制 的 情况 下 ,如 图 9-2(b) 及 (c) 所 示 , 那 
么 方差 会 如 何 变 化 ? 

(b) 有 人 看 见 了 由 同一 汽车 厂 在 同一 年 制造 的 2 辆 汽车 A 和 B, 它 们 都 有 4 BETTY 
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12. 


13. 


17. 


及 相同 类 型 的 发 动机 ,它们 的 区 别 仅 在 于 一 辆 是 红色 的 ,而 男 一 辆 是 绿色 的 。C 
车 由 另外 一 个 三 制造 , 它 有 不 同 于 A,B 的 发 动机 ,只 有 2 RAT HARK EM. 
请 尽 可 能 详细 地 解释 ,为 什么 在 这 种 看 起 来 很 明显 的 情况 下 ,实际 上 并 不 存在 把 
A 和 B 看 作 是 比 B 和 C 更 “相似 ”的 先 验 理 由 ? 
假设 我 们 用 一 种 特定 的 秩 r* 的 谓词 来 描述 各 种 模式 。 证 明 “ 丑 小 鸭 定 理 ”( 定 理 9. 2) 
适用 于 任何 单 层 的 ~ ,从 而 适用 任意 层 的 谓词 。 
作 一 些 简 单 的 假设 ,利用 CC。) 标 记 说 明 如 下 的 二 进 制 串 的 苹 尔 莫 戈 罗 夫 复杂 度 : 
(q) Q10110111011110°"" 


n 


(hy 000°" * 00100 +** 000 
n 


Co)e= 10. 10110111111000010°"°"°2 


(d)2e=101. 01101111110000101°°°2 
Ce) 的 二 进 制 数 ,但 是 将 每 个 第 100 个 数字 置 为 1 。 
Dr 的 二 进 制 数 , 但 是 将 每 个 第 nn 个 数字 置 为 1。 


. 回 到 我 们 对 “没有 免费 的 午餐 定理 ”及 “ 臣 尔 英 臣 罗 夫 复杂 度 ” 的 讨论 上 来 。 假 设 利用 一 个 


均匀 分 布 P(AID) 的 学 习 算 法 ,这 时 (8) 式 中 K(h,D) 二 KK(D)。 请 说 明 并 解释 你 的 结论 ，。 


. 考虑 两 个 二 进 制 串 zl 和 x; ,请 解释 为 什么 对 于 某 些 正常 数 c, 它 们 的 龙 尔 莫 苹 罗 夫 复 


林 度 遵循 K(x >t. SK Ca) + Ka.) + C 的 原则 。 


. 考虑 设计 一 个 第 8 童 的 通用 树 分 类 器 ,要 求 分 别 用 “最 小 描述 长 度 原则 ”以 及 “对 先 验 


施加 约束 ”的 方法 。 

Ca) 假设 我 们 利用 "最 小 描述 长 度 原 则 ”设计 一 个 树 分 类 器 , 它 的 总 精 ( 比 特 数 ) 包 含 
两 项 : 树 的 数据 篇 以 及 和 树 的 节点 数 。 这 在 形式 上 等 价 于 用 "优先 选择 较 小 的 树 ” 
的 先 验 ,概率 的 “最 大 似 然 技 术 ” 来 训练 树 的 情况 。 请 给 出 对 应 的 先 验 概率 PCK) 
的 函数 形式 ,这 里 天 是 树 的 总 节点 数 。 请 指出 你 必须 作 的 假设 。 

(b) 假 设 用 “最 大 似 然 技术 ”来 训练 一 个 树 分 类 和 器, 它 的 节点 数 的 先 验 概率 随 着 广 点 数 
的 减少 而 指数 级 减少 , 即 PCK)cce“。 请 给 出 等 价 的 “最 小 描述 长 度 原理 ?的 画 
数 形式 ,使 之 能 最 终 得 到 同样 的 分 类 结果 。 

下 面 将 研究 “Berry 悖 论 ”, 它 与 “说 谎 者 悖 论 ” 即 著名 的 “这 句 话 是 错 的 ? 悖 论 ) 及 罗素 和 哥 

德尔 在 集合 论 中 使 用 的 一 些 悖 论 有 关系 。“Berry 悖 论 ” 间 接地 显示 了 戈 尔 莫 戈 罗 夫 复杂 度 

的 概念 可 以 非常 复杂 或 者 微妙 。 考 虑 用 语句 来 表达 正 整数 的 例子 ,比如 ， 一 个 人 的 手指 的 

数目 ”或 者 “小 于 一 百 万 的 素数 的 个 数 ”。 请 解释 为 什么 如 下 的 解释 是 一 个 悖 论 :“the least 

number that cannot be defined in less than twenty words”( 不 能 用 少 于 20 个 单词 来 表达 的 最 

小 数字 )。 并 解释 它 是 如 何 同 计算 “ 戈 尔 莫 苹 罗 夫 复 杂 度 "联系 在 一 起 的 。 


9.3 节 


18. 请 展开 式 (11) 的 左边 ,得 到 等 式 的 右边 , 即 用 偏差 ? 和 方差 的 和 的 形式 来 表示 均 方 误 


19, 


差 。 偏 差 可 以 是 负数 吗 ? 方差 可 以 是 负数 吗 ? 
请 给 出 得 到 式 (18) 的 步骤, 即 


Pr[g(x; D) Æ y] = |2F (x) ~ 1|Pr[g(x; D) Æ ya) + Pr[yg # y] 
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a #9 


这 里 目标 函数 是 F(x) ,g(Cx;D) 是 计算 的 判别 值 ,ys 是 贝 叶 斯 判别 值 。 


20. 假设 对 于 模式 x 用 数据 集 力 训练 的 学 习 算 法 ,得 到 特定 的 判别 值 的 概率 是 pl(g(x; 人 DD)) ,请 


指出 pCg(x; 人 DD)) 服 从 高 斯 分 布 。 请 利用 这 个 高 斯 假设 以 及 式 (19) 得 到 式 (20)。 


21. 请 推导 出 式 (29) 中 的 偏差 的 刀 切 法 估计 。 

22. 请 证 明 当 B->ce 时 ,均值 方差 的 自助 法 估计 等 价 于 均值 方差 的 传统 估计 。 

9.4 节 

23. 请 证 明 式 (24) 中 的 “ 留 一 法 ”均值 估计 x(。，) 等 价 于 式 (22) 的 样本 均值 w。 

24. 如 果 当 数据 趋 于 无 限时 , 某 个 估计 收敛 于 真实 值 ,那么 这 个 估计 可 以 称 为 “一 致 ”的 。 


20. 


请 证 明 式 (22) 的 标准 均值 对 于 分 布 pCa) ~tan Cr 一 a) 以 及 任何 有 限 的 实 常 数 a 来 
说 是 不 “一 致 "的 ， 
证 明 式 (30) 给 出 的 一 个 任意 统计 8 的 刀 切 法 估计 对 于 估计 的 真实 仿 差 来 说 是 无 偏 的 。 


26. 请 证 明 式 (26) 对 于 均值 的 方差 的 刀 切 法 估计 等 于 式 (23) 给 出 的 传统 估计 。 
27. 考虑 一 维 空间 上 的 nn 个 点。 利用 标记 OC，) 来 表示 以 下 各 个 估计 的 计算 复杂 度 。 


(a) 均 值 的 刀 切 法 估计 ; 
(b) 中 值 的 刀 切 法 估计 ; 

Cc) hp HEE A TI DK ATT 
(d) 均 值 的 自助 法 估计 ; 

(e) 中 值 的 自助 法 估计 ; | 
(人 标准 差 的 自助 法 估计 。 


28. 请 推导 出 式 (34) 中 的 偏差 的 自助 法 信 计 。 
9.5 节 


29. 


未 甬 校 的 最 近邻 分 类 器 (第 4 章 ) 的 精度 和 方差 的 完整 的 刀 切 法 估计 的 计算 复杂 度 是 多 少 ? 


30. 在 应 用 于 两 类 问题 的 标准 boosting 法 中 ,我 们 必须 产生 一 个 对 于 当前 的 分 类 器 含有 


31. 


32. 


“最 富 信 息 ” 的 数据 集 。 为 什么 这 意味 着 只 有 一 半 模 式 能 够 被 正确 地 分 类 ,而 不 是 任 

何 一 个 模式 都 不 能 被 正确 分 类 ? 对 于 c -类 问题 ,“ 最 富 信息 "集中 的 哪 部 分 模式 必 害 

被 错误 地 分 类 ? 

在 “主动 学 习 ” 算 法 中 ,学 习 能 通过 产生 具有 “最 富 信息 ”的 模式 ( 即 对 它们 来 说 ,两 个 

最 大 的 判别 值 是 接近 相等 的 ) 而 得 到 加 速 。 请 考虑 两 类 的 情况 ,对 特征 空间 中 的 任何 

点 XX, 分 类 器 返回 的 判别 函数 值 是 gj 和 g;。 请 写 出 下 述 伪 代码 :输入 x (分 类 为 w) 

和 x (分 类 为 wm) ,要 求 很 快 地 发 现 一 个 新 的 点 Xs , 它 “ 接 近 ” 于 当前 的 判决 边界 ,因而 

是 “最 富 人 信息” 的。 假设 判别 函数 在 x 和 x; 的 连 线 上 是 单调 的 。 

SEA AES RA Wat BAH) AdaBoost 算法 。 

Ca) Tet RE PAE i Fr PE BY) Pr a AB EF ERG RR PO A SY Se UI RR BE 

Cb) FR 411 All JE XT FP ie A FSS Ta] eB) “5 OP SS a” BY UI BRR Ze MT FR HE TE G, OK 
说 可 以 写成 E, =1/2 = G, ,第 一 个 分 量 分 类 器 的 训练 误差 是 E; = 0., 25, 假设 对 
于 所 有 从 1 到 kwx 的 k,G 二 0.05。 请 绘 出 如 图 9-7 所 示 的 在 式 (37) 给 出 的 系 综 
《总体 ) 测 试 误差 的 上 界 。 

(co) 如 果 G 作为 的 函数 是 衰减 的 ,假设 对 于 所 有 的 k 二 1 FI km ,Gi 一 0.05/ 上 ,请 重复 问题 (b)。 


9.6 节 


33, 


“没有 免费 的 午餐 定理 "表明 如 果 所 有 的 问题 是 等 概率 的 ,那么 “交叉 验证 "技术 会 成 
功 , 也 会 失败 ,其 概率 差不多 。 证 明 如 下 :考虑 算法 1 是 标准 交叉 验证 ,而 算法 2 是 
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34. 


39. 


36. 


37. 


38. 


39. 


“ 反 交 叉 验 证 ”, 它 建议 在 验证 集 选 择 效 果 最 差 的 模式 。 请 证 明 如 果 总 的 来 说 “交叉 验 
证 ” 比 “ 反 交叉 验证 ”好 ,那么 我 们 就 推翻 了 “没有 免费 的 午餐 定理 ”。 
假设 我 们 知道 一 个 模式 分 类 任务 的 数据 要 么 来 自 均匀 分 布 &Cz) 一 UCziz) ,要么 来 
HESA DSN ) ,但 是 并 没有 理由 更 偏爱 哪 一 种 分 布 。 我 们 选取 的 样本 
A HE FED = (0. 2,0.5,0.4,0. 3,0.9,0.7,0. 6}, | 
(a) 求 均匀 分 布 模型 的 x Ra, 的 最 大 似 然 佑 计 ; 
(b) 求 高 斯 模型 的 w 和 ae 的 最 大 似 然 估计 ; 
(c) 根 据 “* 最 大 似 然 模型 选择 方法 ”应 该 选取 哪 种 模式 ? 
假设 我 们 认为 模式 分 类 的 数据 要 么 服从 均匀 分 布 bp(Cz) 一 U(C0O,zs) 要么 服从 正 态 分 
布 加 (z) 一 NGC ) ,但 是 我 们 并 没有 理由 更 偏爱 哪 一 种 分 布 。 我 们 选取 的 样本 数据 
Æp=10.2,0.5,0.4,0.3,0.9,0.7,0. 6}. 
(a) 求 均匀 分 布 模型 的 zx, 的 最 大 似 然 估计 ; 
Cb) 求 高 斯 模型 的 y Alo 的 最 大 似 然 估计 ; 
(c) 根 据 “ 最 大 似 然 模型 选择 方法 ?应 该 选取 哪 种 模式 ”? 
(dd) 叙述 你 在 这 里 所 用 的 方法 与 习题 34 所 用 的 方法 (虽然 不 一 定 要 求解 出 这 个 问题 ) 的 差 

别 。 特 别 ,我 们 从 这 两 个 候选 模型 有 不 同 个 数 的 自由 参数 的 事实 ,可 以 得 出 什么 结论 ? 
考虑 下 列 3 个 候选 一 维 分 布 ,它们 都 由 一 个 未 知 “ 中心 值 ? 所 参数 化 : 
。 Seah: pia ~N(e, 1) 

l-|jx- zl |x yl <l 


e 一 : xX)~ Tn i) = 
ANI: pCa) ~T, 其 他 


© 均匀 分 布 :p(z) 一 UGA l, utl) 

我 们 已 知 数据 DD 二 {一 0. 9, 一 0.1,0.,0.1,0.9) ,明显 地 ,每 个 模式 的 最 大 似 然 解 

=O, 

(a) 利 用 最 大 似 然 模型 选择 来 决定 这 些 数据 的 最 好 的 模型 。 阐 述 你 所 作 的 任何 假设 。 

(b) 假 设 我 们 确信 每 个 模型 的 中 心 必 位 于 区 间 一 Kes 之 间 。 请 计算 每 个 模型 及 
所 给 数据 的 Occam A. 

(Cc) 利用“ 贝 叶 斯 模型 选择 法 ”确定 给 定 DD 的 “最 佳 ” 模 型 。 

利用 式 (38) ,产生 如 图 9-10 所 示 的 曲线 。 请 分 析 证 明 这 些 曲 线 对 于 p 一 (1 一 之 ) 和 

p> 一 pp) 的 交换 是 对 称 的 。 解 释 其 对 称 性 的 原因 。 

令 模 式 h ARES RARE 8 来 表示 。 简 述 你 的 假设 ,并 且 证 明 Occam 因子 可 以 表示 为 


pÊ Or 


正如 式 (44) 所 示 ,这 里 赫 森 矩阵 H EAU PERZ SRE. 

“Dl 特 朗 (Bertrand) 那 论 ” 表 明 , 一 个 “均匀 分 布 ” 模 型 的 思想 可 能 是 有 问题 的 , 它 导致 

我 们 对 “漠视 原则 ”(principle of indifference) (如 上 机 练习 9) 的 质疑 。 考虑 下 面 的 问 

题 :给 你 一 个 圆 , 求 一 个 随机 选择 的 弦 比 它 的 内 接 等 边 三 角形 的 边 长 要 大 的 概率 。 

下 面 是 这 个 问题 的 3 种 可 能 的 解法 以 及 它们 的 证 明 , 如 下 图 所 示 : 

C) 由 弦 的 定义 可 知 , 弦 连接 了 圆 上 的 两 点 。 我 们 可 以 随意 地 旋转 图 形 ,使 得 其 中 的 
一 点 置 于 圆 的 上 方 。 另 外 一 点 等 概率 地 落 在 圆 的 任意 一 点 上 。 如 左边 图 所 示 ， 
其 中 1/3 的 点 ( 红 点 ) 可 以 使 弦 长 大 于 其 内 接 等 边 三 角形 的 边 长 。 因 此 , 线 长 大 
于 其 内 接 等 边 三 角形 边 长 的 概率 为 P=1/3. 
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40. 


4l. 


42. 


43. 








(2) 弦 由 它 的 中 心 点 的 位 置 惟 一 决定 。 如 果 中 心 点 所 在 的 半径 是 在 大 圆 一 半 的 同心 
圆 的 里 面 , 那 么 会 产生 一 条 弦 , 它 的 长 度 大 于 大 圆 的 内 接 等 边 三 角形 的 边 长 。 因 
为 小 圆 的 面积 是 大 圆 的 1/4, 因 而 其 概率 是 已 =17/4。 

(3) 我 们 可 以 任意 地 旋转 ,使 强 的 中 心 点 位 于 一 垂直 线 上 。 如 果 中 点 距离 圆心 小 于 
半径 的 1/2, 这 条 弦 将 比 其 内 接 等 边 三 角形 的 边 长 要 长 。 于 是 ,其 概率 是 
P=1/2, 

请 解释 为 什么 我 们 几乎 没有 任何 理由 “偏爱 ?使 用 哪 种 解法 ,因此 问题 的 解 是 “未 完善 

定义 的 ”Gill-defined)。 利 用 你 的 答案 来 调和 “ 贝 叶 斯 模型 选择 方法 ”与 “没有 人 免费 的 

午餐 定理 ”的 关系 (定理 9. 1)。 

如 果 x 个 独立 随机 选取 的 测试 集中 有 k 个 错 分 类 的 模式 ,那么 如 式 (38) 所 示 ,k 具 有 

二 项 式 分 布 


P(k) = (oa 一 


请 证 明 p ERK IWATA EE p = k/n ,如 式 (39) 所 示 。 

推导 f(n,d) 的 关系 式 , 已 知 从 线性 可 分 的 d 维 空 间 中 任意 选取 的 n 个 点 的 二 分 法 ， 
如 式 (53) 所 示 。 请 解释 为 什么 对 nd 十 1 有 f(n,d)=1. 

写 出 一 个 算法 的 伪 代 码 ,来 确定 大 x 时 测试 误差 的 极限 值 ,假设 由 式 (52) 描 述 的 误差 
按 指数 律 递 减 , 如 图 9-17 所 示 。 

假设 一 个 标准 的 三 层 神 经 网 络 有 4 个 输入 单元 ,ny 个 隐 舍 单元 ,一 个 偏 置 以 及 c=2 
个 输出 单元 ,通过 两 类 问题 训练 (第 6 章 )。 请 考虑 最 终 权 值 赋值 的 退化 情况 。 也 就 
是 说 ,有 多 少 方式 可 以 让 权 值 在 判别 规则 不 改变 的 情况 下 重新 赋值 ? 请 解释 这 种 退 
化 情况 如 何 般 入 到 “ 贝 叶 斯 模型 选择 方法 ”中 。 


9.75 
44. ox Aly 分 别 表 示 输 入 和 输出 向 量 ,r 是 混合 模型 中 的 索引 (rk)。 利 用 贝 叶 斯 公式 


P(r|x') Py lx, r) 


Pi(rly', x’) = «=a. mene. 
pee P(q|x') P(y'|x', q) 


推导 用 于 “混合 专家 模型 ”的 梯度 下 降 学 习 算 法 中 的 式 (58) 和 式 (59)。 


45. 假设 “混合 专家 分 类 器 "有 kk 个 d 维 空间 中 任意 均值 和 方差 的 高 斯 分 量 分 类 器 


N (B,D) ,推导 出 特定 的 分 量 分 类 器 参数 以 及 “ 选 通 子 系统 ”的 学 习 规 则 , 即 式 (58) 和 


式 (59) 的 特例 。 





508 有 几 道 练习 将 用 到 下 面 的 从 4- 类 ( 记 为 w;) 中 抽样 出 的 三 维 数 据 ，。 
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= 
E 
2 
= 
an 
= 
= 
bh 
= 
ta 
= 
= 
all 
> 
-> 
x 
= 
he 
= 
wed 


l . 

2 4.3 44 71 11.7 5.3 10.5 3.6 139 98 12.1 168 2.1 
3 7.1 08 6.3 84 ILI 6.6 10.3 61 123 137 121 5.5 
4 I4 -0.2 2.5 8.2 10.4 4.9 8.2 5.5 7.1 119 13.4 3.4 
5 3.9 43 3.4 5.3 7.7 8.8 13.3 47 41.7 145 155 2.8 
6 3.2 6.8 5.1 7.9 4.5 9.5 6.6 8.1 16.7 15.6 149 4.4 
7 7.3 65 71 107 6.9 10.9 12.2 5.1 5.9 16.2 12.3 3.2 
8 —0.7 3.1 8.1 9.6 9.7 7.3 15.6 33 10.7 12.2 16.3 3.2 
9 2.8 5.9 2.2 8.2 11.2 6.3 46 101 138 145 129 —0.9 
10 6.1 7.6 4.3 53 10.1 4.9 9.1 4.4 8.9 158 15.6 4.5 


9.2% 
l 考虑 使 用 最 小 描述 长 度 原 理 设 计 二 又 判决 树 分 类 器 (第 4 章 )。 在 每 个 市 点 上 的 查询 
用 “Is r >00 QE “Is zx; 二 07”) 的 形式 。 每 个 这 种 问题 指定 5 比特 :2 比特 表示 要 查 
询 的 特征 (xi ,zs 或 x3),1 比特 表示 比较 的 结果 是 “二 "还 是 “< 二”,4 比特 表示 每 个 整数 
上 0 委 狼 16)。 假 设 这 种 分 类 器 的 苹 尔 莫 艾 罗 夫 复杂 度 是 所 有 问题 的 比特 数 的 和 (至 
多 差 一 个 加 性 常数 ) 。 给 定 树 分 类 器 ,假设 数据 的 “ 苹 尔 莫 戈 罗 夫 复杂 度 " 仅 是 叶 上 数 
HE AY He E E H EE Re o 
(a) 用 上 表 所 示 的 4 类 问题 中 的 数据 来 训练 该 树 。 从 一 个 根 节 点 开始 逐步 扩展 训练 
树 ,每 次 生长 一 个 节点 ,直到 每 个 节点 尽 可 能 地 纯 。 请 描绘 出 作为 总 节点 数 的 函数 
的 下 述 臣 尔 莫 戈 罗 夫 复杂 度 : (1) 分 类 器 ,(2) 与 分 类 器 有 关 的 数据 ,(3) 它 们 的 和 
( 式 (8))。 证 明 该 树 ( 包 括 节 点 上 的 问题 ) 具 有 最 小 的 描述 长 度 。 

(b)“ 最 小 描述 长 度 原理 ”给 出 了 一 种 原则 性 方法 ,可 用 于 比较 不 同 的 分 类 能 ,这 些 分 类 
器 的 参数 (例如 羡 值 或 权重 ) 具 有 不 同 的 分 辨 率 。 如 果 只 利用 3 比特 来 指定 树 市 点 
上 的 每 个 国 什 9, 试 重复 (a)。 

(c) 假 设 以 上 分 类 器 的 艾 尔 莫 戈 罗 夫 复杂 度 中 的 加 性 常数 是 相等 的 ,请 问 哪 种 分 类 器 
具有 最 小 描述 长 度 ? 

9. 3 节 

2. 通过 仿真 ,举例 说 明 偏 差 -方差 分 解 以 及 回归 中 的 偏差 -方差 两 难 问 题 。 假 设 目标 函数 
F(x) 二 x ,高 斯 噪声 的 方差 是 0. 1。 首 先 通过 选择 在 一 1 委 z 委 1 上 均匀 分 布 的 关 的 
值 ,并 将 在 FCz) 上 附加 噪声 ,任意 产生 100 个 数据 集 , 每 个 集 的 大 小 n= 二 10。 训 练 
(a) 一 (d) 中 的 每 个 回归 函数 的 任意 一 个 目 由 参数 a;( 用 最 小 平方 误差 准则 ) ,每 次 只 训 
练 一 组 数据 。 作 出 式 (11) (图 9-4) 中 的 误差 平方 和 的 直方 图 。 对 每 个 模型 ,利用 你 得 
到 的 结果 去 估计 偏差 和 方差 。 

(a)g(x)=0.5 

(b) g(z2) =1.0 

(g(r) =a + az 

(d) gla) =a) + aix t+ asz? + azr? 

(e) 如 果 有 100 个 数据 集 , 其 大 小 n= 二 100, 重 复 问 题 (a) ~(d). 

(f) 总 结 以 上 结论 ,特别 考虑 ;(1) 偏 差 -方差 分 解 和 两 难 问题 ;(2) 对 数据 集 大 小 的 依赖 
关系 。 
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9.4 节 


3. 


分 布 的 “修剪 均值 ”是 指 分 布 的 这 样 一 种 样本 均值 ,在 其 中 删除 了 最 高 和 最 低 点 的 一 部 

分 数据 (例如 去 掉 10%)。 自 然 , 与 传统 样本 均值 相 比 ,“ 修 剪 均值 ”对 “外 层 点 ”的 存在 

并 不 敏感 。 

(a) 说 明 当 a>0.5 时 ,分 布 的 "修剪 均值 "就 等 于 其 中 但。 

(b) SRERDA LRH o 类 的 10 个 模式 的 zx; 个 值 。 写 一 个 程序 来 确定 :CD 的 中 
值 的 刀 切 法 估计 ;ii 该 估计 的 方差 的 刀 切 法 估计 。 

(c) 当 a=0.1 时 ,对 于 修剪 均值 和 它 的 方差 ,重复 (b) 。 

(d) 当 a 二 0.2 时 ,对 于 修剪 均值 和 它 的 方差 ,重复 (b)。 

ODE zx; 二 20 含有 一 个 附加 的 “外 层 点 "时 ,重复 (by 一 (d) 。 

( 旨 请 解释 你 的 结果 ,特别 是 考虑 到 修剪 均值 对 外 层 点 的 影 啊 。 


9.5 节 


4. 


写 一 个 程序 实现 AdaBoost 过 程 ( 算 法 1), 其 中 分 量 分 类 器 利用 线性 判别 范 数 ,并 采用 

基本 LMS 算法 (第 5 章 ) 来 训练 。 

(a) 将 你 的 系统 应 用 于 分 类 上 表 中 wi 类 的 10 个 点 和 ws 类 的 10 个 点 的 问题 中 。 绘 出 
训练 误差 作为 分 量 分 类 器 个 数 的 函数 图 形 , 并 保证 该 图 在 推广 到 足够 高 的 kwz 时 ， 
训练 误差 几乎 为 0。 

(b) 定 义 一 个 “ 超 类 ”, 它 包含 表 中 的 ww 和 ws 类 的 所 有 模式 ,同时 定义 男 一 个 “ 超 类 ” 包 
E ws 和 中 的 所 有 模式 。 重 复 (a) 以 判别 这 些 超 类 。 

(c) 比 较 和 解释 (a) 和 (b) 的 绪 果 ,特别 要 注意 对 比 不 同 分 类 问题 的 相对 难度 。 


5. 研究 “主动 学 习 ” 的 作用 。 考 虑 二 维 两 类 问题 ,其 中 先 验 概 率 是 高 斯 形式 的 ,px|w) 一 


+ 5 一 9 20 0 
NG) $4 = (7 pesh 2) == (>) A Plo) =Plom)=0.5. 


在 这 个 问题 中 ,数据 限定 在 一 10a, 10 的 范围 内 ,i 二 1,2。 

(a) 赁 观察 说 明 贝 时 斯 分 类 器 ,这 将 作为 (c) 中 “ 神 论 ” 所 使 用 的 判决 。 

(b) 产 生 100 个 点 的 训练 集合 ,其 中 50 个 根据 palo) REN o ,类 似 的 另外 50 个 根 
据 p(x1w;)。 利 用 你 的 数据 训练 一 个 最 近邻 分 类 器 (第 4 章 ) ,在 二 维 空间 上 绘制 判 
决 边 界 。 

(c) 假 设 此 时 存在 一 个 “ 神 论 ”, 它 可 以 根据 你 在 (a) 中 的 回答 来 标记 任何 查询 的 模式 ,这 是 
一 种 特殊 的 主动 学 习 形 式 。 为 了 开始 学 习 , 我 们 首先 根据 一 10 志 xz; 亿 十 10(i 二 1,2) 范 
围 内 的 均匀 分 布 选取 10 个 点 。 对 于 每 个 集合 ,根据 “ 神 论 ? 标 记 这 些 点 来 得 到 Di 和 
D: 。 现 在 产生 新 的 查询 点 :从 Di AD. 中 分 别 任意 选择 一 点 ,在 这 两 点 的 中 点 上 产生 
一 个 查询 点 。 根 据 “ 神 论 ? 标 记 这 个 点 ,把 它 加 到 合适 的 集合 Pi 中 去 。 这 样 继续 下 去 ， 
直到 总 的 标记 点 数 达 到 100。 现 在 利用 所 有 的 这 些 点 ,产生 一 个 最 近邻 分 类 上 需 , 在 二 
维 空间 中 描绘 出 判决 边界 。 

(d) 定 量 比 较 (a)、(b)、(c) 中 的 分 类 器 ,解释 你 的 结果 。 


. 在 采用 有 3 个 分 量 分 类 器 的 简单 boosting 问题 中 ,我 们 希望 能 够 使 用 所 有 的 nn 个 训练 


点 ,并 且 希 望 每 个 分 量 分 类 器 都 使 用 大 致 相等 的 模式 个 数 ( 即 mn Ty 11/3) « 
(a) 产 生 一 个 包含 n=300 的 二 维 的 训练 集 DD, 其 中 两 类 中 的 每 一 个 都 有 150 TR. m 
出 你 的 样本 ,根据 它们 的 对 角 来 定义 正方 形 中 的 “均匀 分 布 ”, 特 别 是 
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© p(x|w) ~u((5)-(3))] 
spalo ~u((,).(7)) 


(b) 假 设 每 个 分 量 分 类 器 是 一 个 简单 的 二 叉 判 定 树 , 它 包含 一 个 根 节 点 ,两 个 子 节 点 ,4 


个 叶 节 点 ,基于 一 个 “ 炉 不 纯度 ”来 进行 训练 (第 8 章 )。 利 用 boosting 法 训练 一 个 
3- 分 景 分 类 器 。 从 n =n/3=100 个 模式 开始 。 

(c) 根 据 你 在 (b) 中 仿真 得 到 的 ns 和 ns 的 值 ,用 一 个 简单 的 启发 式 来 确定 合适 的 ni 的 
值 。 具 体 说 来 ,如 果 你 得 到 的 ni 太 小 ,那么 需要 重新 初始 化 nn 为 最 大 可 能 值 300 与 
当前 值 的 平均 值 , 得 到 新 的 nj 值 。 相 反 , 当 nj 过 大 时 , 则 应 该 重新 初始 化 为 最 小 
可 能 值 0 与 当前 值 的 平均 值 。 

(dd) 为 了 达到 一 个 “可 接受 ”的 ni 的 初始 值 ,需要 运用 boosting 算法 多 少 次 ? 并 解释 你 
的 “可 接受 ”的 概念 。 

9.6 节 
7. 研究 这 样 一 种 情况 , 即 “ 验 证 拉 术 ”未 必 会 改善 分 类 器 的 性 能 。 分 类 名 都 是 “k- 近 邻 分 

类 器 ”( 第 4 章 ) ,其 中 x 是 通过 “验证 技术 ”来 设置 。 考 虑 一 个 二 维 的 两 类 问题 ,其 先 验 

分 布 在 范围 0 志 x; 志 1(i 二 1,2) 内 是 均匀 分 布 。 

(a) 首 先 形成 一 个 20 个 点 的 测试 集 Dis 一 一 10 个 点 属于 mm ,10 个 点 属于 ow, 一 一 并 根 
据 “ 均 句 分 布 ”的 方式 任意 选 出 。 

(b) 接 下 来 产生 100 个 点 一 一 每 类 50 个 模式 。 置 Y==0. 1, 将 该 集合 划分 成 一 个 训练 集 
Drain (90 个 点 ) 和 一 个 验证 集 Dva (10 个 点 )。 

(oc) 现在 产生 一 个 “k- 近 邻 分 类 髓 ”, 其 中 一 直 增 加 到 验证 误差 的 第 一 个 极 小 值 被 找 
到 。(〈 限 定 上 为 奇数 值 ,以 避免 出 现 不 分 胜 负 的 情况 。) 现 利用 测试 集 来 确定 该 分 类 
as HJ ie Ze | 

(d) 重 复 (c) ,但 通过 验证 误差 的 第 一 个 极 大 值 来 确定 。 

(e) 重 复 (c) 和 (d)5 次 ,注意 所 有 10 种 情况 下 的 测试 误差 。 

(人 讨论 你 的 结论 一 一 尤其 是 ,它们 是 如 何 的 依赖 于 (或 不 依赖 于 ) 其 数据 是 “均匀 分 
布 2 的 事实 的 。 

8. 考虑 3 个 候选 的 一 维 分 布 模型 ,每 个 都 通过 一 个 未 知 值 给 其 "中 心 ? 给 定 参 数 : 

。 BMH: p(z)~N(p,0°) 

l-|lz—-— p! lz — al<] 


。 =A i: pCa) ~T 1) = 1 其 他 


。 均匀 分 布 : p(x) ~U(p — 2,4 2) 
假定 对 于 每 种 模型 ,其 中 心 必定 落 在 一 1<p<1 HERA. BFR K<., 
还 假设 我 们 已 获得 数据 DD 二 {一 0.9, 一 0.1,0.0,0.1,0.9}。 显 然 ,最 大 似 然 解 ==0 适 
用 于 每 一 种 模型 。 
(a) 估 计 每 种 情况 下 的 Occam 因子 。 
(b) 利 用 “ 贝 叶 斯 模型 选择 方法 ” 选 出 这 些 模型 中 的 最 优 者 。 

9. 习题 39 描述 了 “ 贝 特 开 迟 论 ”, 它 是 有 关 在 一 个 加 中 随机 选取 的 弦 的 长 度 比 其 内 接 等 
边 三 角形 的 边 长 还 要 长 的 概率 。 
(a) 利 用 习题 39 的 解法 (1) 的 思路 , 写 一 个 程序 来 产生 一 些 弦 。 产 生 1000 个 这 样 的 
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弦 ,并 通过 实验 来 估计 弦 长 比 内 接 等 边 三 角形 的 边 长 还 要 长 的 概率 。 


(b) 重 复 (a) ,假定 利用 解法 (2) 的 思路 。 
(c) 重 复 (a) ,假定 利用 解法 (3) 的 思路 。 


(d) 解 释 为 什么 几乎 没有 任何 理由 可 以 表明 其 中 某 个 解法 优 于 男 外 的 解法 。 也 就 是 
说 ,所 给 的 问题 的 解 是 “未 完善 定义 ”的 ， 
(e) 将 你 的 回答 同 “ 没 有 免费 的 午餐 理论 ”( 定 理 9.1) 以 及 “ 贝 叶 斯 模型 选择 法 "联系 起 


来 。 
9.7 ©% 


10. 为 上 表 中 的 数据 创建 一 个 多 分 类 器 系统 。 同 上 机 练习 4 一样 ,定义 两 个 " 超 类 ”其 中 
w Alo. 中 的 20 个 点 形成 一 个 超 类 was ,其余 的 20 个 点 形成 超 类 wa。 

(a) 假 设 第 一 个 分 量 分 类 器 采用 高 斯 先 验 分 布 ,其 均值 wo 是 任意 的 ,而 协 方差 是 利用 
最 大 似 然 法 (第 3 章 ) 估 计 。 统 计 对 wa 和 ws 所 得 的 训练 误差 是 多 少 ? 

(b) 设 第 二 个 分 量 分 类 器 也 采用 高 斯 先 验 分 布 ,但 协 方差 矩阵 是 任意 的 。 用 wa 和 wa 


测量 出 的 训练 误差 是 多 少 ? 


(c) 通 过 梯度 下 降 法 ( 式 (58) 和 (59)) 训 练 这 两 个 分 量 分 类 器 , 问 总 体 分 类 器 系统 的 训 


练 误差 是 多 少 ? 
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在 前 面 ,我 们 一 直 假定 在 设计 分 类 器 时 ,训练 样本 集中 每 个 样本 的 类 别 归属 是 “被 标记 了 

的 (labeled)。 这 种 利用 已 标记 样本 集 的 方法 称 为 “有 监督 ”supervised) 或 有 教师 ”方法 。 在 
本 章 中 ,我 们 将 介绍 一 些 “ 无 监督 "(unsupervised) 或 “无 教师 ?方法 ,用 来 处 理 未 被 标记 的 样本 
集 。 
也 许 有 人 疑惑 为 什么 要 考虑 这 样 一 个 看 来 不 像 会 有 什么 前 途 的 问题 ,其 至 担心 这 类 问题 
即使 在 原理 上 也 是 行 不 通 的 。 但 是 至 少 有 5 个 理由 使 我 们 相信 “无 监督 ”方法 是 非常 有 用 的 。 
首先 ,收集 并 标记 大 型 样本 集 是 个 非常 费时 费力 的 工作 。 比 如 ,记录 语音 信息 是 相当 方便 的 ， 
但 是 要 准确 地 标记 出 每 个 发 音 所 对 应 的 单词 或 音素 的 代价 却 是 巨大 的 。 如 果 能 先 在 一 个 较 小 
的 样本 空间 上 粗略 地 训练 一 个 分 类 器 ,随后 ,允许 它 以 自 适 应 的 方式 处 理 大 量 的 无 监督 的 样 
本 ,我 们 就 能 节省 大 量 的 时 间 和 精力 。 第 二 ,也 许 有 人 和 希望 道 向 解决 问题 : 先 用 大 量 未 标记 的 
样本 集 来 自动 地 训练 分 类 器 ,再 人 工地 标记 数据 分 组 (grouping) 的 结果 。 这 种 方法 比较 适合 
“数据 挖掘”(data mining) 方 面 的 大 型 应 用 ,因为 这 些 应 用 常常 事先 不 知道 待 处 理 数 据 的 具体 
情况 。 第 三 ,存在 很 多 应 用 , 待 分 类 模式 的 性 质 会 随 着 时 间 发 生 缓慢 的 变化 。 例 如 ,自动 食品 
分 类 器 中 的 食品 会 随 着 季节 更 换 而 改变 。 如 果 这 种 性 质 的 变化 能 在 无 监督 的 情况 下 捕捉 到 ， 
分 类 器 的 性 能 就 会 大 幅 提 升 。 第 四 ,可 以 用 无 监督 的 方法 提取 一 些 基 本 的 特征 ,这 些 特征 对 进 
一 步 的 分 类 会 很 有 用 。 事 实 上 很 多 无 监督 方法 都 可 以 以 独立 于 数据 的 方式 工作 ,为 后 续 步 又 
提供 “灵巧 预 处 理 ” 和 “灵巧 特征 提取 ”等 有 效 的 前 期 处 理 。 最 后 ,在 任何 一 项 探索 性 的 工作 中 ， 


无 监督 的 方法 都 可 以 向 我 们 揭示 观测 数据 的 一 些 内 部 结构 和 规律 。 如 果 我 们 能 够 通过 这 些 方 2 


法 得 到 一 些 有 价值 的 信息 ,那么 就 能 更 有 效 地 设计 具有 针对 性 的 分 类 器 了 。 

从 原理 上 讲 ,究竟 能 不 能 直接 从 未 标记 的 样本 中 学 到 一 些 有 用 的 东西 呢 ? 这 完全 取决 于 
我 们 是 否 愿 意 去 接受 一 些 假设 (assumption) 。 毕 竟 ,任何 理论 的 证 明 都 是 以 一 些 假设 为 前 提 
的 。 下 面 ,就 从 一 个 十 分 严格 的 假定 开始 : 即 样本 的 概率 密度 的 函数 形式 是 已 知 的 ,而 竺 估计 
的 是 一 些 未 知 的 参数 向 量 。 非 常 有 趣 的 是 ,基于 这 个 假设 的 无 监督 问题 的 解 在 形式 上 与 
第 3 章 中 提 到 的 有 监督 问题 的 解 几乎 是 一 样 的 。 但 是 在 无 监督 情况 下 ,一般 参数 化 问题 的 党 
见 困难 依然 存在 ,并 且 在 计算 上 也 同样 复杂 。 于 是 我 们 必须 尝试 以 多 种 方式 重新 描述 问题 ,其 
中 之 一 是 将 问题 陈述 为 对 数据 分 组 (grouping) 或 聚 类 (clustering) 的 处 理 。 尽 管 得 到 的 聚 类 算 
法 (clustering procedure) 没 有 很 明显 的 理论 性 ,但 它们 确实 是 模式 识别 研究 中 非常 有 用 的 一 
类 技术 。 


10.2 混合 密度 和 可 辨识 性 


对 于 待 研究 的 问题 我 们 假设 概率 结构 完全 是 已 知 的 ,只 有 参数 是 未 知 的 。 更 具体 地 说 , 作 
出 如 下 假设 : 
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1. 所 有 样本 都 来 自 于 c 种 类 别 ,c 是 已 知 的 ; 

2. 每 种 类 别 的 先 验 概率 PCw,) 也 是 已 知 的 ,j= 二 1,…,c; 

3. 样本 的 类 条 件 概率 密度 具有 确定 的 数学 形式 pC x|@; ,@ )，7 一 1，…,c; 

4, 参数 向 量 O ,… ,0. 是 未 知 的 ; 

5. 样本 类 别 未 被 标记 。 

假设 样本 是 这 样 产 生 的 : 先 以 概率 Pl(w) 决 定 其 所 属 类 别 ,接着 根据 概率 密度 
palwa; ,四 ) 生 成 一 个 具体 的 样本 。 于 是 ,对 于 给 定 样 本 x, 其 产生 的 概率 为 


p(x|0) = 》 p(xlw;, 0)) P(w;) (1) 
j=l 


其 中 ,0 二 (6, ,0 ) 是 参数 问 量 。 出 于 明显 的 理由 ,这 样 的 概率 密度 形式 被 称 为 “混合 密 
度 ”, 而 条 件 概 率 密 度 p(x|wj ,9 ) 称 为 是 “分 量 密 度 ”(component density) , 先 验 概 率 Plow) ER 
为 “混合 参数 ”。 有 些 时候 , 混合 参数 与 6 都 是 未 知 的 ,但 我 们 现在 先 不 考虑 这 种 情况 。 

这 样 ,我 们 的 目标 就 是 使 用 从 混合 密度 中 取出 的 样本 去 估计 未 知 的 参数 向 量 6。 一旦 知 
道 了 0, 就 能 将 样本 的 混合 密度 分 解 为 它 的 基本 分 量 , 并 据 此 设计 最 大 后 验 C(MAP) 分 类 器 。 在 
具体 动手 寻找 问题 的 答案 前 ,让 我 们 先 从 理论 上 考虑 一 下 有 和 否 可 能 由 混合 密度 恢复 6。 假 设 
样本 数量 是 无 穷 的 ,用 第 4 章 提 到 的 非 参 数 (nonparametric) 技 术 就 可 获得 任意 样本 x 上 的 概 
率 p(x10)。 如 果 仅 仅 存 在 一 个 OWE px 62) ,那么 理论 上 就 应 该 存在 解 。 如 果 几 个 不 同 的 8 
取 值 都 产生 同样 的 p(x| 介 ,那么 就 不 可 能 得 到 一 个 惟一 的 解 。 

所 有 这 些 分 析 使 得 我 们 给 出 如 下 定义 :密度 p(x|9) 被 称 为 是 可 辨识 的 (identifiable) ,如 果 
b 天 0 能 推导 出 存在 某 个 x 使 得 (xl19) 天 DCx18)。 换 一 种 说 法 ,如果 无 论 样 本 的 数量 有 多 少 ， 
都 不 存在 惟一 的 解 6, 那么 密度 如 (x|19) 是 不 可 辨识 的 Cnot identifiable) 。 最 坏 的 情况 并 不 是 不 
存在 惟一 解 ,而 是 参数 向 量 9 的 任何 部 分 都 无 法 求 出 ,对 应 这 种 情况 的 混合 密度 就 是 “完全 不 
可 辩 识 的 >(completely unidentifiable) 。 值 得 注意 的 是 ,8 的 可 辨识 性 是 模型 的 基本 性 质 , 与 具 
体 的 参数 估计 方法 无 关 。 正 如 所 预料 的 那样 ,对 于 可 辨识 混合 密度 的 研究 会 容易 许多 ,而 且 幸 
运 的 是 ,我 们 遇 到 的 大 多 数 混 合 密度 确实 是 可 辨识 的 ,如 同 现实 问题 中 大 多 数 复杂 的 和 高 维 的 
密度 随 数 一 样 。 

离散 分 布 的 混合 却 并 不 总 是 那么 容易 处 理 。 比 如 样本 x 取 值 0 或 1, 混合 概率 Pal A 


l 1 
P(x|8) = 595 (1 = 0 一 十 了 时 (1 一 的) 一 


3 (61 + 82) x=] 
1 — 3(01 +) x=0 


举 个 例子 ,假设 根据 数据 我 们 得 出 per=1|0)=0.6,PCc=0]0 = 二 0.4, 那 么 就 完全 获得 了 
PCzl0) ,但 是 仍然 无 法 确定 0, 也 就 无 法 提取 出 分 量 密度 。 至 多 可 以 说 各 十 名 一 1.2。 因 此 这 
个 例子 中 的 混合 概率 分 布 就 是 “完全 不 可 辨识 的 ”, 这 种 情况 下 的 无 监督 学 习 也 是 不 可 能 实现 
的 。 在 另外 一 些 类 似 的 情况 下 我 们 或 许可 以 估计 单个 参数 或 部 分 参数 的 值 , 但 不 是 全 部 ( 习 
题 3) 。 

上 面 这 种 不 可 辨识 的 问题 常常 与 离散 分 布 一 起 出 现 。 如 果 混 合 分 布 的 组 成 分 量 过 多 ,未 
知 参数 的 个 数 会 多 于 独立 方程 的 个 数 , 可 辨识 性 就 成 了 非常 严峻 的 问题 。 对 于 连续 分 布 来 说 ， 
也 许 会 在 某 些 特殊 的 分 布 情 况 中 出 现 计算 困难 ,但 总 体 来 说 问题 不 是 那么 严重 。 混 合 正 态 分 
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布 通 常 是 可 辨识 的 。 不 过 也 有 例外 ,在 一 个 由 两 个 分 量 密度 组 成 的 的 混合 密度 





P l P l 
P(x|0) = A exp -5 一 an? | + E exp -aC 一 (2) 


中 , oR P(w,) = P Cw ) ,那么 由 于 0, 与 0, 是 可 交换 的 而 不 影响 pz|O) ;该 混合 密度 是 不 可 辩 
识 的 。 为 了 避免 不 必要 的 复杂 化 ,我 们 了 针 认 不 可 辨识 性 是 一 个 问题 ,因此 今后 将 假定 所 涉及 到 
的 混合 密度 都 是 可 辨识 的 。 

10.3 最 大 似 然 估 计 


考虑 由 个 样本 组 成 的 集合 D 二 {xi，.,. ,x,}。 这 些 样 本 都 是 未 标记 的 ,并 且 是 独立 地 从 
一 个 混合 密度 采样 出 来 的 。 混 合 密度 为 


p(x|0) 一 》 p(xlw;, 0;)P(w,) (1) 


j=} 
其 中 ,参数 向 量 9 具有 确定 但 未 知 的 值 。 我 们 定义 样本 集 的 似 然 函 数 具 有 下 面 的 联合 概率 密 
度 形 式 : 


P(DI6) = | | plo) (3) 
k=1 


使 得 该 密度 达到 最 大 的 参数 值 9 就 是 9 的 最 大 似 然 估计 p (D10)。 


如 果 pz(D1b) 是 关于 6 的 可 微 函 数 ,我 们 就 可 以 推出 一 些 8 的 必要 条 件 。 令 7 是 似 然 函 数 
PORT RL. Vol 为 1 关于 6, 的 梯度 ,那么 


I = $ In p(x!) (4) 
k=l 
# A 
n 1 C 
Vel = — Vo, X,|@;, 8;) Po; (5) 
0; 2, plo) 8; PE K|@; j) | 


假设 参数 向 量 6. 和 6, 是 互相 独立 的 (G 产 让 ,通过 引 人 后 验 概率 
p(Xxlwi, 8) P (wi) 


Plowilxx, 0) = PEATS (6) 
我 们 发 现 对 数 似 然 的 梯度 可 以 写成 有 趣 的 形式 
Vo! = > P(wilXx, 0)Ve, In p(xxlwi, 8;) (7) 
当 ! 最 大 时 ,i 在 各 个 0; 方向 上 的 梯度 为 0, 于 是 最 大 似 然 估 计 0 必须 满足 
Y Pl lx, Ve jn pxo 0) =0 i=1,---,¢ (8) 


k=l 


对 这 个 方程 求解 9, ,就 可 以 得 到 最 大 似 然 估计 。 
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不 难 将 这 些 结果 推广 到 把 先 验 概率 PC(w,) 也 包括 在 未 知 量 之 中 。 这 时 候 , 问 题 转化 为 寻 
找 8 和 Plw) 使 得 p(tD19) 取 最 大 值 ,并 且 要 满足 
P(w;) >0 i=1,...,c (9) 
和 


>》 P(oD)=1 (10) 
i=l 


A> Bw) TR Pw.) HY BAW ð, 为 9, 的 最 大 似 然 估 计 。 可 以 证 明 ( 见 习题 6), 如 果 似 
然 函 数 是 可 微 的 ,并 且 P(w,) 对 每 个 i 都 不 为 0, 则 PCw;) 和 外 必须 满足 下 面 的 条 件 : 


a ] .一 a a 
Êlo) = 了 2 Poix 8) (11) 
k=l 


和 Paulx,bVeinpxktlwo,b)=0 (12) 


k=! 

其 中 

parlw Ô) P(w;) 
Ei ploj, 8;)P(@;) 

我 们 对 上 面 的 方程 给 出 一 些 进 一 步 的 说 明 。 式 (11) 是 说 一 个 类 别 概率 的 最 大 似 然 估计 是 
从 每 个 样本 导出 的 估计 的 平均 -一 每 个 样本 的 权 值 相等 。 式 (13) 完 全 体现 了 贝 叶 斯 定理 的 思 
想 ,但 请 注意 等 号 右边 的 分 子 取 决 于 8 而 不 是 整个 参数 向 量 和 6。 式 (12) 显 得 有 点 复杂 ,如 果 假 
设 "一 1, 它 就 退化 为 比较 容易 理解 的 形式 。 由 于 户头 0, 这 种 情况 仅仅 意味 着 概率 密度 函数 对 
参数 6, 最 大 化 ,而 这 正 是 最 大 似 然 解 的 要 求 。 


10.4 对 混合 正 态 密度 的 应 用 


下 面 我 们 要 研究 的 混合 正 态 密 度 模 型 是 非常 有 意义 的 , 它 的 每 个 分 量 密度 都 是 多 元 正 态 
分 布 Bp plx|w,,0,)~ NE,, D). 下 表 列 出 了 一 些 从 该 模型 引申 出 来 的 不 同情 况 , 每 种 情况 
都 对 应 不 完全 相同 的 变量 。 如 果 某 些 变 量 是 已 知 的 就 用 Xx 表示 ,如 果 是 未 知 的 ,就 用 ?表示 。 


Pl(wilxx, 8) = (13) 


情况 Hi >,, P(w) C 
(均值 PH) GER) (类 别 数目 ) 

l ? x x x 

2 ? ? ? x 

3 ? ? ? 7 


情况 1 是 最 简单 的 ,并 由 于 其 教学 上 的 意义 ,我 们 将 给 出 详细 的 解释 。 人 情况 2 更 接近 实 
际 , 当 然 也 会 更 复杂 。 情 况 3 表示 我 们 对 给 出 的 一 组 样本 数据 没有 任何 知识 ,遗憾 的 是 ,最 大 
似 然 方法 无 法 解决 它 。 我 们 将 在 10. 10 节 讨 论 在 类 别 数目 未 知 的 情况 下 如 何 处 理 这 个 问题 。 
10.4.1 情况 1: 均 值 向 量 未 知 

如 果 所 有 参数 中 只 有 均值 向 量 &; 是 未 知 的 ,那么 O 中 必然 含有 8;, 所 以 式 (8) 可 以 用 来 
得 到 最 大 似 然 估计 的 必要 条 件 。 因 为 对 数 似 然 隧 数 为 


In p(xlwi, pi) = — In[(27r)?/*|B;)'/7] 一 (x — pi) XS (x — pi) (14) 
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它 的 导数 是 
Vu; In p(x|@;, wi) 三 (x — pi) (15) 
于 是 ,根据 式 (8) ,最 大 似 然 估计 A 必须 满足 


n . 
XO P(wi |x, AET (x, — Bi) = 0, p= (应 Be)! (16) 
k=l 


将 上 式 左 右 同时 乘 以 之 , 并 重新 整理 ,就 可 以 得 到 解 


Ay = J- P(X, BX 
YF Ploile, B) 


这 个 等 式 从 直觉 上 说 也 是 非常 令 人 满意 的 。 它 表明 u, 的 最 大 似 然 估计 不 过 就 是 样本 的 加 权 
平均 。 第 k 个 样本 的 权 值 就 是 % 属 于 第 i 类别 的 可 能 性 。 如 果 PCw;|xi ,ph) 恰 好 在 某 些 样本 上 
为 1.0 而 在 其 他 样本 上 为 0.0, 那 么 L: 就 是 属于 第 i 类 的 样本 的 均值 。 更 一 般 的 是 ,假定 玉 ， 
非常 接近 于 4&; 的 真实 值 ,以 至 于 Po, |x, ORRERA o 的 后 验 概率 。 如 果 我 们 把 PCw, jx ， 
1) 看 成 来 自 第 i 类 和 具有 值 x; 的 那些 样本 的 一 部 分 , 则 可 知 式 (17) 给 出 的 &; 实质 上 是 来 自 第 
i 类 的 样本 的 平均 值 。 

遗憾 的 是 , 式 (17) 并 没有 给 出 4; 的 解析 形式 ,即使 用 palo sk) ~N(H;, 2) eR 
A P(X |@;, fi) P(@;) 

OOM BD Fe padoj, By) PC) 

Feith RABAT UBRERARBAHIEREN TBA. LATRA EAE 
H RALE ae aE Be 7S A LA PR PR BAB TS RE E (DLR BY eK LY AR 

HE, MRR ESA —T+ RE E 00), RU7) WBE HER 
法 来 改善 估计 值 : 


(17) 


eat 已 (oil BU) Xx 
2- P l@k, AG) 
这 个 方法 本 质 上 是 一 种 梯度 上 升 算 法 (或 者 称 为 “ 候 山 算法 ”) ,用 来 最 大 化 对 数 似 然 函 数 。 如 
果 分 量 密度 函数 之 间 的 重 琶 很 少 , 不 同类 别 之 间 的 耦合 就 会 很 少 ,和 迭代 算法 的 收敛 就 会 很 快 。 
但 是 ,即使 收敛 真 的 实现 了 ,我 们 也 只 能 保证 这 时 候 的 梯度 为 零 。 就 像 所 有 的 梯度 方法 一 样 ， 
这 种 和 迭代 算法 不 保证 得 到 全 局 最 优 的 解 。 同 时 请 注意 ,如 果 模 型 本 身 就 有 错误 (比如 类 别 数目 
假设 错 了 ) ,那么 式 (18) 的 迭代 方法 得 到 的 结果 反而 会 更 差 。 
为 了 说 明 梯 度 搜索 在 无 监督 学 习 过 程 中 可 能 出 现 的 问题 ,下 面 考虑 一 个 由 两 个 分 量 组 成 
的 一 维 混 合 正 态 模型 


Mi(j+1) = (18) 








- op {te -up 一 
psi. Ha) = == exp | 5 Hi) H] 5 Ha) (19) 
et/ Sr ep 
wi an 


其 中 w; 表示 高 斯 分 量 。 在 下 面 表格 中 的 25 个 样本 就 是 依次 从 这 个 模型 中 抽取 得 到 的 , 且 令 
入 二 一 2 和 ps 一 2。 让 我 们 用 这 些 样本 计算 对 数 似 然 旺 数 


1p 2) = È In prlu, Ha) (20) 
k=l 
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Mi 和 ks 取 不 同 的 值 。 图 10-1 表示 ! eM pE usu 变化 的 。 图 中 /的 最 大 值 出 现在 

上 二 一 2.130 和 js 二 1.668 处 ,这 个 估计 值 还 算 比 较 靠 近 真 实 值 4 一 一 2,1s 一 2。 但 是 ,! 在 内 

=2. 085 Ñu: = —1. 257 处 达到 了 另 一 个 局 部 最 大 值 ,而 且 这 个 局 部 最 大 值 与 全 局 最 大 值 大 小 

接近 。 大 体 上 说 ,这 个 解 对 应 的 是 交换 4， 和 AHs 。 请 注意 ,如 果 两 个 分 量 先 验 的 概率 是 相等 的 ， 

交换 和 As 不 会 影响 对 数 似 然 函 数 的 值 。 因 此 ,正如 前 面 提 到 过 的 , 当 混 合 密度 模型 是 不 可 

辨识 的 时 候 , 最 大 似 然 解 不 是 惟一 的 。 
k 





l 
2 
3 
4 
5 
6 
7 
8 





lool) (上 图 ) 产 生 样本 的 混合 密度 
以 及 基于 样本 集 的 最 大 似 然 估计 的 结 pias) 
果 。( 下 图 ) 两 个 单 变量 高 斯 密度 的 混合 
模型 的 对 数 似 然 估计 ,是 表 中 数据 的 均 
值 函数 。 红 色 线 表示 选 代 最 大 似 然 估计 
的 轨迹 。 两 个 局 部 最 优 的 对 数 似 然 分 别 
是 一 52.2 和 一 56.7, 对 应 图 中 的 两 个 密 
度 估计 


通过 比较 真实 的 混合 密度 和 估计 出 的 混合 密度 ,我们 可 以 得 到 关于 多 解 性 的 一 些 本 质 认 
识 。 图 10-1 中 的 上 图 显示 真实 的 混合 密度 ,同时 显示 了 根据 两 个 最 大 似 然 的 解 得 到 的 估计 的 
密度 。25 个 样本 用 分 布 在 横 坐 标 上 的 点 表示 ,属于 wm 的 用 黑色 ,属于 o 的 用 红色 。 请 注意 
真实 混合 密度 的 两 个 峰 的 位 置 分 别 代 表 两 类 样本 数据 的 中 心 , 而 两 个 估计 的 混合 密度 的 峰 也 
一 样 。 对 应 较 小 对 数 似 然 函 数 的 估计 虽然 是 较 大 似 然 函 数 估计 的 镜像 ,但 它 的 峰 也 大 致 代 表 
了 两 大 类 样本 数据 。 从 表面 上 看 来 ,两 个 都 差不多 有 用 ,没有 哪个 比 另 外 的 更 好 一 些 。 

式 (18) 可 以 用 来 迭代 计算 式 (17) 的 解 , 但 是 结果 取决 于 初始 值 (0) A (0)。 图 10-1 
中 下 图 给 出 两 个 对 应 不 同 初始 值 的 迭代 轨迹 。 尽 管 在 图 中 没有 标 出 ,但 是 容易 知道 .如果 恰 巧 
(0) =p. (0) ,那么 迭代 一 步 马 上 就 可 以 到 达 一 个 鞍点 ,完成 收敛 。 这 并 非 偶然 ,而 是 因为 此 
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时 等 式 Plo | 2, 0/1 (0) ,pz(0)) 二 Plw) 成 立 。 在 这 种 情况 下 , 式 (18) 将 所 有 样本 的 均值 同样 
HRA. 和 js, 以 及 以 后 的 迭代 过 程 。 显 然 ,这 是 一 种 普遍 现象 ,如 果 初 始点 没有 偏离 搜索 的 
对 称 位置 ,将 很 容易 得 到 鞍点 解 。 
10.4.2 情况 2: 所 有 参数 未 知 

如 果 参 数 BU; 和 P(w,) 都 是 未 知 的 ,而 且 对 协 方差 矩阵 没有 任何 其 他 约束 ,那么 由 最 大 
似 然 方法 得 到 的 是 奇异 解 , 因 而 没有 任何 用 处 。 下 面 用 一 个 一 维 的 简单 例子 来 说 明 这 个 问题 。 
S prle ) 表 示 一 个 由 两 分 量 组 成 的 混合 密度 ; 








po = reap — 354) ] + el- 


如 有 果 有 nn 个 样本 来 自 于 这 个 混合 密度 ,那么 似 然 函 数 就 是 个 概率 密度 p(x, |e” A. 
当 我 们 令 py 一 zi 时 ,对 样本 zl 就 有 





] ] 
(xilu, o?) = + —— ex aul 
mo Vo 2m | 2! 


显然 ,对 其 他 的 样本 ,有 





l 
p(x, o°) > 5 


从 而 


l ] ] 1 一 
p(x pene Xn le, 07) > |1 + ex -|| ———— exp | 一 一 x? 
| a FPL 38 Gy P| 3 2 


如 果 令 “任意 地 接近 0, 那 么 似 然 函数 就 可 以 任意 地 大 ,因此 说 这 样 的 参数 解 是 奇异 的 ， 
一 般 说 来 ,对 于 奇异 解 我 们 是 没有 任何 兴趣 的 ,因此 不 能 不 得 出 结论 ,最 大 似 然 准则 对 上 
面 这 类 混合 正 态 模型 是 行 不 通 的 。 但 是 根据 经 验 ,如 果 我 们 只 取 似 然 函数 的 局 部 最 优点 中 对 
应 最 大 有 界 值 的 那 一 个 ,那么 还 是 可 以 得 到 一 些 有 意义 的 结果 的 。 假 设 似 然 函数 在 这 个 点 附 
近 的 特性 足够 好 ,我 们 就 可 以 用 式 (11) 一 (13) 去 估计 鼎 , 互 和 P(w)。 但 当 我 们 将 E 加 入 到 
未 知 参数 向 量 9, 中 时 ,必须 注意 矩阵 D 的 非 对 角 元 素 中 只 有 一 半 是 互相 独立 的 。 而 且 , 在 后 
SR AE HEME 更 方便 。 于 是 
eve i 


GA T 7 em BA Ee — p) (21) 


In p(x, |@;, 0:)= In 


对 于 &; 和 i ”的 分 量 的 微分 可 以 同样 算出 来 。 令 arl k OABRE x 和 的 第 p 个 元 
ROn (1) 和 o AHA E 和 ! 的 第 pg 个 元 素 。 那 么 微分 就 得 到 


Vi In p(xxlwi, 0) = BF" (x, — pi) (22) 
9 ln p(x, |e, 6) 5 | | | 
Samay = (1 — St) [on 8) — (p(k) = pp) alk) — ui] (23) 


其 中 ,6% 是 Kronecker 函数 。 把 这 些 结果 代 入 式 (12) ,再 进行 少量 代数 操作 (习题 17) ,就 得 到 
一 些 与 局 部 极 大 似 然 估 计 BS, 和 PCw;) 相 关 的 方程 ; 
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、 1 H . 、 
Ploi) = ~ 2_ Poil. 8) (24) 
k=] 


> > | Pu OX, 


pi = : (25) 
k 二 | P (w; |Xk, 0) 
3, _ 2 k= Poli 0) (x 一 Hi) (X; 一 prj)! (28) 
ae P (w; Xx, 0) 
其 中 
5 2 ;, 0)P i 
P(w;\x;, 8) = Pe PIE) 
2 j= PX lw, Oj) Pwj) 
世上 72 exp[ — 10u — fi) EP Or — fi) ] Pov) 
一 A (27) 


> I- exp[ _ L(x, _ AV ÈT (x 一 À) | Po)) 


虽然 这 些 方 程 看 起 来 比较 复杂 ,但 可 以 用 很 简单 的 原理 来 解释 它们 。 在 极端 情况 下 ,比如 
Plwi|xi 8) ARE WN 1.0 和 0.0, 当 到 属于 ww 类 别 时 为 1.0, 否 则 就 为 0.0 时 ,上 面 这 些 方程 就 指 
出 估计 Plw,) 代 表 属 于 类 别 o 的 样本 比例 ,4 表示 属于 该 类 样本 的 均值 ,, 是 对 应 的 样本 的 
协 方差 矩阵 。 更 一 般 的 情况 是 ,Plw|x ,提取 值 在 0.0 和 1.0 之 间 , 因 而 对 每 组 成 分 参数 ,所 
有 样本 都 要 有 所 贡献 。 从 本 质 上 说 ,PCw;) ,pK AIP Co; |x, ORT EAR FRA BRR A 
一 类 别 样 本 的 均值 和 这 些 样 本 的 协 方 差 矩 阵 。 

如 同 10. 4. 1 节 中 讨论 的 ,这 些 方程 也 是 隐 和 式 的 而 不 利于 直接 求解 ,同时 还 要 避免 可 能 的 
奇异 解 而 带 来 的 麻烦 。 一 个 非常 直观 的 求解 方法 就 是 利用 初始 估 值 去 计算 式 (27) ,再 依靠 
式 424) 一 (26) 去 更 新 这 些 佑 计 值 。 如 有 果 初 始 值 足够 好 ,比如 是 从 大 量 已 标记 样本 计算 而 来 , 那 

么 达 代 算法 就 会 很 快 地 收 敏 。 不 可 否认 ,算法 的 结果 完全 取决 于 初始 值 ,而 且 多 解 问题 仍然 存 
在 。 同 时 ,反复 地 计算 协 方差 矩阵 及 其 逆 矩 阵 也 是 非常 耗 时 的 。 

为 了 简化 问题 ,我 们 可 以 假设 协 方差 矩阵 是 对 角 阵 。 一 个 好 处 就 是 减少 了 未 知 参数 的 个 
数 , 当 样本 数量 不 多 时 ,这 个 好 处 就 显得 非常 重要 。 如 果 这 样 的 简化 假设 太 强 了 ,我 们 还 可 以 
假定 c 类 样本 的 协 方差 矩阵 都 是 相同 的 ,这 样 做 也 能 有 效 地 解决 奇异 值 的 问题 (习题 17) 。 
10.4.3 上- 均值 聚 类 

在 各 种 各 样 用 来 简化 计算 和 加 速 收敛 速 度 的 算法 中 ,我 们 将 研究 一 个 非常 基础 的 同时 也 
是 非常 流行 的 近似 算法 。 我 们 本 打算 称 这 个 算法 为 “c 均值 算法 ”, 因 为 它 的 目标 就 是 要 找到 c 
个 均值 向 量 pi ,Ks,… ,Kh.。 但 这 个 方法 被 人 们 普遍 称 为 “k- 均 值 从 类 ”, 其 实 就 是 这 里 的 c, 所 
以 我 们 还 是 遵从 大 家 的 习惯 而 称 它 为 “k -均值 聚 类 ”(k -mean clustering). 

在 式 (27) 中 ,Plw;|% ,0) 随 着 马 氏 (Mahalanobis) 距 离 的 平方 (x 一 EB;)' E; O 一 上 ;) 的 减 
小 而 增 大 。 我 们 也 可 以 用 近似 的 方法 ,通过 计算 欧 氏 (Euclidean) 距 离 的 平方 ‖x 一 ki ||? 
到 最 接近 x 的 类 中 心 An o HRP C |x ,外 的 近似 

P (wlxi, 0) ~ 


1 i=m 

0 其 他 

那么 对 式 (25) 进 行 迁 代 就 可 以 计算 请，…, 下 ,具体 算法 见 下 面 。 如 果 没 有 更 进一步 的 信息 ， 
我 们 只 能 猜测 类 别 的 数量 为 <。 具体 的 c 与 最 终 的 应 用 有 关 ,比如 在 一 个 英语 手写 字母 识别 的 
应 用 中 , 令 c= 26 是 可 以 接受 的 ,即使 我 们 并 不 知道 到 底 实 际 存在 几 个 类 型 。 在 10. 10 节 我 们 


(28) . 
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要 再 讨论 这 个 聚 类 有 效 性 的 问题 。 
在 下 面 以 及 以 后 各 章 中 ,我 们 用 ”表示 模式 的 数量 ,< 表示 类 别 的 数量 。 通 常 的 做 法 是 从 
样本 中 随机 取出 c 个 作为 初始 的 聚 类 中 心 。 聚 类 算法 表示 如 下 : 


算法 1 (kk- 均 值 聚 类 ) 


l begin initialize ny,c,Hi , Hz ，… s H. 


2 do 按照 最 近邻 上 分 类 个 样本 
3 重 计 算 H 

4 until px; 不 再 改变 

9 return H; sH ， o fh, 

6 end 





这 个 算法 的 计算 复杂 度 为 OdT), d 代表 特征 的 数量 ,也 即 样本 的 维 数 。 工 是 迭代 次 数 ( 见 
习题 16) 。 在 实践 中 ,迭代 次 数 通常 远 少 于 样本 的 数量 。 

该 算法 是 一 种 典型 的 聚 类 算法 。 以 后 我 们 将 把 它 归 人 迭代 优 化 算法 的 范畴 ,原因 是 个 
均值 会 不 断 移 动 ,以 使 得 一 个 平方 误差 准则 函数 最 小 化 。 目 前 ,我 们 只 把 它 视 为 一 种 近似 方 
法 ,用 来 求 均 值 的 最 大 似 然 估计 。 从 这 个 算法 得 到 的 结果 既 可 以 作为 最 终 答案 ,也 可 以 作为 进 
一 步 计算 的 初始 值 。 

下 面 我 们 将 考察 这 个 算法 运用 在 图 10-1 中 那些 样本 上 面 的 效果 。 在 图 10-2 中 ,从 不 同 
初始 值 开 始 的 迭代 过 程 都 被 绘制 出 来 。 因 为 互 换 户 Mi 不 过 是 交换 了 一 下 样本 的 标记 ,所 
以 选 代 轨迹 对 直线 f=, 是 对 称 的 。 迁 代 轨迹 要 么 趋向 于 点 访 一 一 2.176,f 一 1. 684, H4 
趋向 于 该 点 的 对 称 点 。 这 个 结果 也 接近 于 前 面 最 大 似 然 方法 的 结果 ( 即 如 = 一 2. 130, fr 
”=1. 688) ,而 且 两 种 方法 的 迭代 轨迹 也 比较 相似 。 一 般 来 说 , 当 分 量 密度 互相 之 间 重 肥 很 小 

时 ,最 大 似 然 方法 和 上 -均值 聚 类 方法 会 给 出 大 致 一 样 的 结果 。 


图 10-2 k -均值 聚 类 算法 是 一 种 在 对 上 


数 似 然 函数 空间 上 的 随机 朴 山 算法 。 等 UZ 

值 线 是 图 10-1 的 数据 的 等 对 数 似 然 函 LEE 4 

数值 曲线 。 图 中 点 是 各 次 迭代 的 参数 GB U 

值 。 其 中 6 个 起 始点 到 达 局 部 极 大 值 

点 ,而 另外 两 个 ( 即 py (0) =p (0) BY 一 一 一 
SSR 


一 个 接近 p= 0 HBR 

图 10-3 给 出 一 个 两 维 的 例子 ,并 假设 类 别 数目 c=3。 从 训练 样本 中 随机 选取 的 3 个 聚 类 
中 心 连同 Voronoi 网 格 点 用 红色 显示 在 图 中 。 按 照 算法 ,3 个 Voronoi 单元 中 每 个 单元 内 的 
点 被 用 来 计算 新 的 聚 类 中 心 ,等 等 。 在 本 例 中 ,经 过 3 次 和 迭代 ,算法 已 经 收 仿 。 -均值 聚 类 算 
法 尽管 简单 ,但 在 实践 中 确实 表现 出 色 , 因 此 是 一 种 主要 的 聚 头 方法 。 
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图 10-3 大 -HEAERXAT EREB. & 
终 的 Voronoi 网 格 图 显示 了 分 类 的 结果 ,其 中 的 均值 对 
应 于 Voronoi 单元 的 中 心 。 这 里 迭代 3 EBM 





°10.4.4 模糊 k- 均 值 聚 类 

在 经 典 k -均值 聚 类 算法 的 每 一 步 迭 代 中 ,每 一 个 样本 点 都 被 认为 是 完全 属于 菜 一 ZR Fl 
这 在 式 (28) 以 及 算法 1 的 第 2.3 行 都 体现 出 来 。 我 们 可 以 放松 这 个 条 件 , 假 定 每 个 样本 x 是 
模糊 “隶属 ”(fuzzy membership) 于 某 一 类 的 。 从 根本 上 说 ,这 种 隶属 度 郴 数 等 价 于 式 (27) 中 
ÉS Ê Cw; | x; ,0) ,其 中 8 是 隶属 函数 的 参数 向 量 。 

模糊 k -均值 聚 类 算法 的 目标 是 最 小 化 全 局 代价 晒 数 


Jiu: = Y Dm, Oy) |x; 一 pall? (29) 


i=l j= 


AP bf — TS ARENA RARE MA RBR. b REN O,S pp MRED 
差 和 准则 ,其 中 每 个 样本 只 属于 一 个 京 类。 我 们 将 在 式 (54) 再 讨论 这 个 问题 。 当 5 汪 0 时 ,该 准 
则 允许 每 个 样本 隶属 于 多 个 聚 类 。 

每 个 样本 点 的 聚 类 隶属 度 函 数 是 归 一 化 的 , 即 


>》 P@lxj)=1, j=1,...,n (30) 
注意 为 了 简化 公式 表达 ,@ 没有 在 这 个 公式 中 写 出 来 。 令 户 表示 先 验 类 别 概率 6(w ), 当 求解 
CED J jz 达到 最 小 ) 时 ,我 们 有 

IJ fuz/3 Mi = 0 和 3Jruz/aPi =0 (31) 
这 将 直接 推出 (见习 题 15) 下 面 的 解 : 
| | Ejawa; 
| DP lo; Ix; )]? 
Q/ad) O- 
?rl/dr) OD) 


一 般 而 言 , 当 每 个 聚 类 中 心 后 靠近 那些 属于 类 别 j 的 高 估计 概率 的 点 时 ,J ji 就 会 最 小 化 。 因 
为 式 (32) (33) 几 乎 没有 解析 解 ,因此 下 面 给 出 一 个 算法 ,和 迭代 估算 聚 类 均值 和 点 概率 : 


(32) 


P(w;|xj) = 和 dj; = |x; — pill? (33) 





算法 2 (SH -HBRKRAEZ) 
] begin initialize 1 CyDy hise. e obey PCw; |X) t= 1,5... 53 j=l, sn 
2 由 式 (30) 归 一 化 PCw|x;) 








527 
l 
528 





529 


i 
530 
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3 do 由 式 (32) 重 新 计算 jb 

4 由 式 (33) 重 新 计算 Plw; | x;) 
5 until 在 p: 和 PCw|x;) 变 化 很 小 

6 return H H25... > H 

7 end 


图 10-4 KAA LAA. ER AI BR rA E A R E EE O Dah, AA TRA A 
都 不 可 忽略 地 属于 每 个 聚 类 的 概率 。 在 后 面 的 迭代 时 ,均值 会 逐渐 分 开 , 同 时 隶属 关系 的 模糊 
度 会 逐渐 减 小 ,Plw;|x;) 趋 向 于 1.0 或 0.0。 显 然 , 典 型 的 k -均值 聚 类 算法 是 式 (17) 模 糊 解法 
的 一 个 特例 , 它 的 所 有 点 的 隶属 关系 可 以 表示 为 
图 10-4 ”在 模糊 k -均值 聚 类 算法 的 每 步 迭 代 中 ， x 4 
样本 点 隶属 于 某 一 类 的 概率 由 式 (32),(33) 进 行 更 | 
新 (这 里 5 一 2) 。 虽 然 很 多 样本 点 在 2 个 或 3 个 聚 a, 1 
类 上 具有 不 可 忽略 的 隶属 概率 ,我们 仍然 在 图 上 用 ae 
直线 划分 各 类 样本 。 经 过 4 次 选 代 后 ,算法 收敛 到 aan 
红色 的 聚 类 中 心 


Xi 


P(w;|x;) = | 0 Ix; — mill < IIx; — pell OA (34) 


其 他 
加 进 概率 的 模糊 聚 类 方法 引入 了 模糊 的 隶属 关系 ,上 -均值 方法 相 比 于 典型 的 聚 类 方法 来 
说 会 改善 收敛 性 能 。 但 根据 式 (30) ,样本 点 x; 中 属于 第 i 类 的 概率 隐 售 受到 了 聚 关 数目 的 影 
响 , 当 聚 类 数 与 真实 情况 不 符合 时 ,就 会 产生 很 严重 的 后 果 ( 上 机 练习 4)。 


10.5 无 监督 贝 叶 斯 学 习 


10.5.1 贝 叶 斯 分 类 器 

在 前 面 第 3 章 提 到 过 ,最 大 似 然 方 法 认为 参数 向 量 8 是 确定 性 的 ,只 是 具体 取 值 未 知 。 在 
这 类 方法 中 关于 参数 向 量 的 先 验 知识 并 没有 太 多 用 处 , 顶 多 也 就 是 利用 先 验 知 识 在 梯度 迭代 
方法 中 选择 初始 值 。 在 本 节 中 ,我 们 将 尝试 通过 贝 叶 斯 方法 进行 无 监督 学 习 , 即 8 被 认为 是 服 
从 某 个 先 验 分 布 p (0) 的 随机 向 量 。 我 们 将 用 训练 样本 去 计算 后 验 概率 密度 p(6|D)。 读 者 会 
注意 到 ,这 部 分 的 分 析 和 第 3 章 中 有 监督 贝 叶 斯 学 习 的 分 析 是 平行 的 ,这 同时 表明 两 个 问题 在 
形式 上 是 非常 相似 的 。 

下 面 首先 给 出 一 组 假设 : 

1. 类 别 数 目 c 是 已 知 的 ; 

2. 先 验 概率 Plow) j 二 1,...，,c 都 是 已 知 的 ; 

3, 类 条 件 概率 密度 p(x|w; ,0,) 的 数学 形式 是 已 知 的 ,但 参数 向 量 6= (0,,… ,60.)' 是 未 知 

的 ; 
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4. 大 于 日 的 先 验 知识 由 概率 密度 p (90) 表示 ; 
5. R PRT 8 的 知识 都 存在 于 样本 集 D 中 ,DD 中 的 nn 个 样本 x... ,x 都 是 独立 地 从 熟 
悉 的 混合 密度 


p(x|0) = 》 p(xlwj, 0;) P(w;) (35) 


j=l 
采样 出 来 的 。 

现在 我 们 可 以 直接 计算 后 验 概率 密度 p (09|D)。 但 是 , 先 让 我 们 看 看 这 个 后 验 是 怎样 用 
于 设计 中叶 斯 分 类 器 的 。 假 定 模 式样 本 是 分 两 步 得 到 的 :首先 根据 类 别 概率 Po, ) 选 择 自 然 
状态 (类 别 ) ,再 根据 这 个 类 别 和 对 应 的 类 条 件 概率 p(x|w,9,) 产 生 最 后 的 模式 x。 设 计 分 类 
器 ,要 利用 所 有 可 能 的 信息 来 计算 后 验 概率 PC(w|x)。 为 了 体现 样本 集合 这 个 信息 的 作用 ,后 
验 概率 应 该 重新 表示 为 Plw|x,D)。 根 据 贝 叶 斯 公式 ,我们 有 
p(Xx|wi, D) P(w;|P) 


P(c;\x, D) = Ei SNAPE) 

(eo; |x, D) S-L palo, D)P(w,|D) (36) 
因为 自然 o 状态 的 选择 与 以 前 出 现 的 样本 是 无 关 的 ,所 以 Plo D= Plo), FE 

Po 和 TD) = — P20 PP) (37) 


yi a1 Palo; D) P(w;) 
注意 到 我 们 是 借助 参数 向 量 8 来 表示 类 条 件 概率 p(x|w,0;) 的 ,而 贝 叶 斯 理论 认为 8 是 随机 
向 量 , 即 有 


paloi, D) = J p(x, Olvi, D) d0 
(38) 
- J p(x|0, wi, D)p(Olo, D) d0 


因为 最 后 模式 x 的 选择 与 以 前 出 现 的 样本 无 关 , 所 以 p(x|0,0,,D)=p(x|o;,0,), RE. p E 
状态 的 选择 没有 告诉 我 们 任何 关于 8 分布 的 信息 ,所 以 p(8|w,.D)=p(O|D), FH, BH 


ploi, D) = J p(xlwi, 0)p(0|D) de (39) 


这 说 明 通 过 分 析 样 本 集 得 到 的 类 条 件 概 率 p(x|w) 的 估计 是 通过 对 p(x|w;,90,) 在 0, 上 的 加 权 
积分 而 得 到 的 。 这 个 估计 的 好 坏 取决 于 p(8|D) 的 性 质 。 因 此 下 面 我 们 就 要 把 注意 力 放 在 
LOIDE. 
10.5.2 参数 向 量 的 学 习 

根据 贝 叶 斯 公式 ,给 定 样本 集 卫 ,参数 向 量 8 的 后 验 概率 pC(0|DD) 可 以 表示 为 
p(D|@) p(@) 


p(@|D) = TpDIO pO do (40) 
并 由 于 样本 是 互相 独立 的 ,所 以 似 然 函数 可 以 表示 为 
P(DIg9) = | | po) (41) 


k=l 
APTA BRAK EA HBR. SD 表示 人 DD 中 前 nn 个 样本 组 成 的 集合 ,那么 式 
(40) 可 以 写 为 递归 的 形式 
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n p(Xn|0) p(0|D"—') 
POD) = Foo pO DT) do 
这 些 是 无 监督 贝 叶 斯 学 习 的 基本 公式 。 式 (40) 体 现 的 是 贝 叶 斯 公式 和 最 大 似 然 之 间 的 关 
系 。 如 果 在 pL.D19) 达 到 局 部 峰值 的 附近 ,pC(0) 的 变化 是 比较 均匀 的 ,因此 p61D) 也 会 在 同 
样 区域 达 到 峰值 。 更 进一步 ,如 果 存 在 一 个 最 主要 的 峰值 在 6= 处 ,而 且 这 是 一 个 尖峰 ,那么 
式 (39)、(37) 就 可 以 近似 表示 为 


(42) 


p(xla;, D) ~ paloi, @) (43) 
p(x|@;, 0:)P (w) 
了 plxlw;, 0)) Pw)) 
也 就 是 说 ,这 些 条 件 从 另 一 方面 支持 了 最 大 似 然 估计 日 直接 用 于 设计 贝 叶 斯 分 类 器 的 合理 性 。 

正如 在 第 3 章 中 所 提 到 的 , 当 数 据 量 非常 大 时 ,最 大 似 然 方法 和 贝 叶 斯 方法 会 取得 一 致 
(或 近似 一 致 的 ) 效 果 。 虽 然 在 一 些小 样本 集 的 情况 下 ,它们 也 可 能 取得 一 致 ,但 是 和 逼近 的 效果 
不 很 理想 (图 10-5)。 与 有 监督 学 习 类 似 的 是 ,选择 用 最 大 似 然 方法 还 是 贝 叶 斯 方法 不 仅 取 决 
于 我 们 对 先 验 信息 的 确认 程度 ,还 要 考虑 算法 实现 的 问题 。 最 大 似 然 方法 总 是 更 容易 实现 。 
图 10-5 “后 验 概 率 如 果 是 多 峰 的 或 焉 斜 的 (如 图 所 示 )， p(DIO) 


那么 最 大 似 然 估计 产生 的 结果 与 贝 叶 斯 方法 的 结果 是 非 
常 不 同 的 。 贝 叶 斯 方法 要 求 在 整个 参数 空间 积分 


Plwilx, D) > (44) 


9 


A 


0 


当然 ,如 果 通 过 对 一 个 很 大 的 已 标记 的 样本 集 的 学 习 得 到 了 先 验 概率 pO) ,那么 它 肯 定 
不 会 很 均 避 。 当 甘 较 小 时 ,这 种 先 验 概率 会 强烈 影响 pC(6|1D")。 式 (42) 表 明 对 一 个 新 的 未 标 
记 样 本 的 观察 怎样 影响 我 们 对 参数 分 布 的 看 法 ,同时 突出 了 和 迭代 更 新 和 学 习 的 思想 。 如 果 混 
合 密度 p(x10) 是 可 辨识 的 ,那么 每 增加 一 个 样本 ,后 验 密度 p(6|D" ) 就 会 更 加 突出 ,不 用 太 多 
特殊 的 条 件 ,p(8|D:*) 就 会 收敛 到 以 8 真实 值 为 中 心 的 狄 拉克 函数 (习题 9) 。 因 此 ,即使 我 们 
不 知道 样本 所 属 的 类 别 , 可 辩 识 性 仍 保证 我 们 可 以 学 到 未 知 参数 0, 继而 学 到 分 量 密度 函数 
p(x|@; ,0). 

上 面 这 些 就 是 无 监督 学 习 的 经 典 贝 叶 斯 解 。 回 顾 以 前 的 章节 ,会 发 现 混合 密度 参数 的 无 
监督 学 习 同 分 量 密度 的 有 监督 学 习 是 非常 相似 的 ,这 并 不 奇怪 。 事 实 上 ,如 果 分 量 密度 也 是 混 
合 型 的 ,那么 这 两 个 问题 之 间 就 没有 什么 本 质 的 差别 。 7 

但 有 监督 学 习 和 无 监督 学 习 之 间 的 差别 还 是 不 小 的 。 一 个 主要 的 差别 是 关于 可 辨识 性 
的 。 对 有 监督 学 习 来 说 ,缺少 可 辨识 性 不 过 表明 求 出 的 参数 向 量 并 不 是 惟一 的 (而 是 参数 向 量 
的 一 个 等 价 类 ) ,但 并 不 带 来 严重 问题 。 对 无 监督 学 习 来 说 ,问题 就 要 严重 得 多 。 当 8 无 法 惟 
一 确定 时 ,混合 密度 就 不 能 被 分 解 为 各 种 真实 的 分 量 。 也 就 是 说 ,虽然 p(x|D") 可 能 会 收敛 
到 p(x) ,但 公式 (39) 得 到 的 palo DATEKE p(x|w;), 这 是 个 理论 上 的 障碍 。 得 
到 一 些 已 标记 的 样本 对 分 解 混合 密度 是 很 有 好 处 的 。 | 

无 监督 学 习 的 男 一 个 严重 的 问题 是 计算 的 复杂 性 。 对 有 监督 学 习 来 说 ,如 果 能 找到 充分 
的 统计 量 ,就 会 得 到 解析 的 解 ,并 且 计 算 也 不 复杂 。 而 对 无 监督 学 习 说 ,样本 不 可 避免 会 来 自 
于 混合 密度 
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pxl6) = 》 ploj, 0;)P(@,) (1) 


j=! 
这 样 就 使 得 计算 p (681) 变 得 异常 复杂 。 在 第 3 章 中 ,类 似 问 题 的 求解 依赖 于 充分 的 统计 量 。 
因 式 分 解 定理 要 求 p CD | 0) BEY E 
P(D\®) = g(s, @hA(D) (45) 


但 从 式 (1) 和 (41) 知 道 , 似 然 函 数 可 以 写成 
p(DI0) = [LX poe, 0 1) P(w))| (46) 


于 是 ,p(D19) 是 分 量 密 度 乘积 的 求 和 式 。 和 式 中 的 每 一 项 代表 样本 序列 xi ,... x, 对 某 个 标 
记 的 联合 概率 密度 。 求 积 是 对 每 一 种 可 能 的 标记 方式 进行 的 。 显 然 ,这 个 似 然 概率 将 8 和 x 
交织 在 一 起 无 法 分 开 , 所 以 不 可 能 有 简单 的 因 式 分 解 存在 。 一 个 例外 就 是 在 分 量 密度 互 不 重 
丢 的 情况 下 ,对 应 每 个 样本 的 混合 密度 中 只 有 一 项 分 量 密度 是 非 零 的 。 这 时 DNE nA 
非 零 分 量 密度 的 乘积 ,所 以 很 有 可 能 找到 一 个 简单 的 充分 统计 量 。 这 个 例外 实际 上 允许 了 每 
个 样本 都 能 惟一 确定 它 所 属 的 类 别 ,因此 等 价 于 一 个 有 监督 学 习 过 程 , 所 以 本 质 上 并 不 令 人 振 
FE 。 
男 一 种 比较 有 监督 和 无 监督 学 习 的 方法 是 将 式 (42) 中 的 p(x,10) 替 换 为 混合 密度 , 即 得 
到 
2 ;1 Pno; 0;)P(@;) 

yf palwj, 0;)P(w;)p(0D"-1) dé 
如 果 我 们 考虑 P(e) =1 sige 情况 ,所 有 的 样本 都 来 自 于 类 别 wi ,这 正好 对 应 有 监督 学 习 ， 
于 是 式 (47) 可 以 简化 为 


p(0|D") = p(0|D"-) (47) 


p(Xn|w1, 91) 
f plxnlw1, 01)p(0ID"-!) de 
比较 式 (47)、 (48) 就 可 以 发 现 增加 一 个 样本 是 怎样 影响 6 的 估计 的 。 在 每 种 情况 下 ,我们 可 以 
忽略 用 来 归 一 化 的 分 母 。 因 此 ,有 监督 和 无 监督 最 主要 的 差别 在 于 有 监督 的 方法 要 通过 参数 
先 验 密度 p(9) 和 分 量 密度 p(x, |w ,6 ) 的 弱 积 来 获得 后 验 概率 密度 ,而 无 监督 的 方法 却 是 靠 
参数 先 验 概率 和 混合 密度 >) ,p(x | 0) Po) 的 乘积 得 到 后 验 密度 。 假 设 样本 x, 来 自 
Fo, 类 别 , 无 监督 学 习 由 于 不 知道 样本 所 属 类 别 而 减 小 了 x 对 9 的 影响 。 这 是 因为 x 有 可 
ESE A Tc 种 类 别 中 的 任何 一 种 ,x 对 9 的 影响 就 不 如 它 来 自 于 单一 类 别 时 的 影响 大 。 


p(0ID") = p(@|D""") (48) 





例 1 高 斯 数据 的 无 监督 学 习 
下 面 以 一 个 一 维 的 两 个 分 量 的 正 态 混合 密度 为 例 。 分 量 密度 分 别 为 plad ~N), 
pCa |w ;0) 一 NN(9,1) ,已 知 Hn P(w, ) 和 P (a, ) » KINA 


p(x|6) = ee ex xp | -0 -|+ + EE exp | -3 -0)| 
al V, 


wy wy 








并 求 第 二 个 分 的 均值 。 
如 有 果 将 该 公式 看 成 以 xz HA SSH BR BAC EMP IESE H BO, HP 
Zz 一 /处 达到 峰值 , 另 一 个 在 z=0 处 达到 峰值 。 如 果 将 该 公式 看 成 以 0 为 自 变量 的 函数 ， 
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p(x|9) 就 只 有 一 个 峰 在 96=xz 处 。 假 设 参数 先 验 概率 密度 p(0) 在 a Mb 之 间 均 匀 分 布 ,那么 一 


次 观察 (r= 二 x ) 后 ,就 有 
a’ {P(a) expl- } (x — u)?’ j+ 


p(0\x:) = ap(x |@)p(@) = P(w2) expl- } (xı —6)*}} a<x0 <b 
0 其 他 
其 中 a 和 a 都 是 归 一 化 常数 且 与 0 无 关 。 如 果 样 本 r 正好 满足 ar, Sh. APA pCOl rd 当然 
也 在 O=2, 处 达到 峰值 。 如 果 不 满足 ,那么 当 zi <a 时 峰值 在 9==a 处 , 当 r >b 时 峰值 在 09 二。 
处 。 请 注意 当 zi 靠近 4 时 ,exp[ 一 (1/2) (zi 一 4)”] 较 大 从 而 使 得 pC(90|zi) 的 峰值 不 如 以 前 突 
出 。 这 正好 说 明 z 更 可 能 是 来 自 于 p(x|iw), 因 此 它 对 参数 9 的 影响 会 减 小 。 
当 第 2 个 样本 zs 被 观察 到 时 ,p(0|zi ) 就 更 新 为 
pix, x2) = Bp(X218)p(0 |x) 


934 


有 | Pon) P(r) exp [= 3.0% — u} 一 了 (xz — w)?] 
+P(a)P(w2) exp [一 :xn — 4)? — $ 0m 一 90) 
+P(w2)P(w) exp [一 Oo — 0)? — 40% 一 人) 
+P(w2)P(w2) exp[—}(m = 8)? — $00 — 0)°]| 


a<@<b 


0 其 他 








. : 4 9 

在 对 参数 O 的 无 监督 贝 计 斯 学 习 中 "后 验 概率 密度 会 随 着 观察 到 的 样本 数量 的 增加 而 提高 峰值 ， 在 上 面 
两 幅 图 中 ,第 一 幅 使 用 的 参数 先 验 概率 p(9)==1/8, 一 404, 第 二 幅 使 用 更 窜 的 先 验 概率 pO = 1/2, 10 
委 3。 尽 管 两 种 先 验 概率 密度 差别 很 大 ,但 在 观察 25 个 样本 以 后 ,两 种 情况 下 的 后 验 概率 密度 几乎 是 完全 相 
同 的 ,样本 中 的 信息 已 经 抑制 了 参数 的 先 验 信息 
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但 是 ,通过 上 面 的 公式 我 们 发 现 即使 在 ”一 2 的 情况 下 ,p(9|D") 也 是 非常 复杂 的 。 公 式 
中 的 4 个 求 和 项 分 别 代表 两 个 样本 所 属 类 别 的 可 能 组 合 。 如 果 有 ?个 样本 ,就 有 2" 项 子 式 ， 
而 且 不 存在 简洁 的 充分 统计 量 用 来 简化 计算 和 方便 理解 。 

我 们 可 以 利用 关系 


p(Xnl0)p(0 D!) 


ODY = 一 一 一 天 -一 
pel) Í pOl@)p(@|D"-!) do 


和 数值 积分 得 到 近似 的 数值 解 。 借 用 图 10-1 FHR, HO = 2, P(w,) =1/3, Plo) =2/3, 
先 验 密度 p(0) 在 一 4 和 十 4 之 间 均 匀 分 布 ,我 们 就 得 到 上 面 图 中 的 结果 。 当 nn 趋 于 无 穷 时 ,我 
们 确信 p(9|1D") 会 趋向 为 在 9=2 处 的 一 个 冲击 函数 。 上 图 同时 也 有 助 于 理解 收敛 速度 问题 。 

对 无 监督 尝 习 来 说 , 贝 叶 斯 方法 和 最 大 似 然 方法 的 显著 差别 在 于 有 没有 参数 先 验 密 度 
PO). ELAN ATS, p(0) 被 假设 在 1 到 3 之 间 均 匀 分 布 的 时 候 , 插 图 很 好 地 体现 了 在 
先 验 知识 更 确定 时 p(9|D*) 是 如 何 变化 的 。p(9|D") 的 变化 在 nn 很 小 的 时 候 是 非常 显著 的 。 
也 正 是 在 这 种 情况 下 (就 像 第 3 章 中 的 连续 空间 样本 的 分 类 的 情况 ), 贝 叶 斯 方法 和 最 大 似 然 
方法 的 结果 相差 较 远 。 随 着 ”的 增 大 , 先 验 知识 的 重要 性 逐渐 减 小 ,在 上 面 那 个 特殊 的 例子 
中 ,两 种 不 同 先 验 下 的 结果 曲线 在 n= 25 时 已 经 几乎 完全 相同 了 。 一 般 说 来 ,大 家 总 是 期 望 这 
种 差别 足够 小 ,即使 未 标记 样本 是 用 来 确定 训 (2) 的 已 标记 样本 的 好 几 倍 。 


10.5.3 判定 导向 的 近似 解 

虽然 无 监督 学 习 可 以 被 理解 为 混合 密度 的 参数 估计 问题 ,但 最 大 似 然 方法 和 贝 叶 斯 方法 
都 不 能 得 到 简洁 的 解析 解 。 甚 至 最 简单 的 例子 也 会 导致 计算 复杂 度 随 着 样本 的 增加 呈现 指数 
增长 。 无 监督 学 习 不 会 因为 很 难 找到 解析 解 而 被 放弃 , 它 实在 是 太 重 要 。 而 且 幸 好 人 们 找到 
了 很 多 可 以 得 到 近似 解 的 方法 。 

因为 无 监督 学 习 和 有 监督 学 习 的 重要 差别 是 有 没有 对 样本 进行 标记 ,一 个 显而易见 的 无 
监督 学 习 方 法 就 是 用 先 验 信息 设计 一 个 分 类 器 ,然后 用 这 个 分 类 器 对 样本 的 判定 标识 样本 进 
行 分 类 。 这 种 方法 被 称 为 “判定 导向 ”(decision-directed) 方 法 ,而 且 它 有 很 多 的 变化 形式 。 它 
能 捉 行 地 在 线 学 习 , 每 对 一 个 未 标记 样本 分 类 后 ,就 根据 当前 分 类 结果 更 新 分 类 器 。 当 然 , 它 
也 能 以 并 行 的 方式 运行 ,每 处 理 n 个 样本 后 才 更 新 一 次 分 类 器 。 如 果 愿 意 ,这 种 过 程 可 以 重复 
下 去 直到 样本 的 分 类 结果 不 再 改变 为 止 。 很 多 尝试 性 的 方法 也 都 可 以 使 用 来 针对 不 同 分 类 判 
me AY) E A BE 1E th A AY BIE 

判定 导向 方法 仍 有 一 些 明 显 的 不 足 之 处 。 如 果 初 始 的 分 类 器 并 不 好 或 者 碰 到 了 一 串 不 理 
想 的 样本 ,那么 分 类 误差 会 导致 分 类 器 向 着 错误 的 方向 发 展 ,使 得 结果 对 应 于 似 然 函 数 一 个 较 
小 的 峰值 。 即 使 初始 分 类 器 足够 好 ,一 般 说 来 ,后 续 分 类 的 结果 也 不 一 定 等 于 真实 的 样本 的 隶 
属 关 系 。 这 样 的 硬性 分 类 不 会 将 来 自分 量 密度 边缘 的 样本 归 为 该 类 ,同时 很 有 可 能 将 来 自 其 
他 分 量 密度 边缘 处 的 样本 归 入 本 类 。 因 此 ,如 果 分 量 密度 之 间 有 着 很 多 的 重合 ,估计 就 会 有 
偏 , 结 有 果 就 不 是 最 优 的 。 

REA AEREI A ,判定 导 癌 的 方法 还 是 因 其 简洁 性 使 得 贝 叶 斯 方法 在 计算 上 是 可 行 
的 ,从 万 一 方面 说 ,有 缺陷 的 解 总 比 没 有 解 好 。 如 果 有 足够 好 的 条 件 , 就 可 以 以 较 小 的 计算 代 
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价 得 到 不 错 的 性 能 。 在 实践 中 ,如 果 参 数 假设 是 合适 的 ,分 量 密度 之 间 重 全 很 小 ,初始 分 类 能 
的 设计 是 大 致 正确 的 ,上 面 那 些 判 定 导 向 的 方法 都 表现 不 错 ( 上 机 练习 7). 


10.6 数据 描述 和 聚 类 


让 我 们 重新 考虑 一 下 从 一 个 未 标记 样本 集合 中 学 习 多 维 空间 模式 结构 的 问题 。 从 几何 上 
看 ,这些 样本 点 可 能 在 d 维 空 间 上 形成 一 片 点 组 成 的 云 。 假 设 通过 某 种 方法 ,我 们 知道 这 些 
样本 点 全 部 来 自 于 一 个 单一 分 量 的 正 态 分 布 ,那么 我 们 能 学 到 的 数据 形式 大 部 分 包含 在 充分 
统计 量 一 一 样本 均值 和 伴 本 协 方差 矩阵 中 。 从 本 质 上 说 ,这 些 统计 量 构成 了 原 数据 的 一 种 紧 
致 的 描述 。 样 本 均值 位 于 样本 云 的 重心 , 它 可 被 视 为 在 最 小 化 平方 距离 和 的 意义 下 最 能 代表 
所 有 样本 的 一 个 点 m。 样 本 协 方差 矩阵 描述 的 是 样本 在 以 m 为 中 心 的 各 个 方向 上 的 离散 度 。 
如 果 数 据点 确实 是 正 态 分 布 的 ,那么 样本 云 的 形状 是 个 简单 的 超 椭 球体 ,样本 均值 就 在 样本 云 
密度 最 高 的 地 方 。 

当然 ,如 果 样 本 并 不 是 正 态 分 布 的 ,把 这 些 统计 量 作为 数据 描述 来 说 是 非常 使 人 误解 的 。 
图 10-6 说 明了 这 一 点 ,其 中 的 4 组 不 同 数据 集 虽然 分 布 形 状 不 同 ,但 具有 相同 的 均值 和 协 方 
差 矩 阵 。 显 而 易 见 ,二 阶 统计 量 是 不 足以 揭示 任意 数据 集 的 空间 结构 的 。 

图 10-6 ”图 中 的 4 组 数据 点 具有 相同 的 直到 二 阶 ooo "og yaa 一 -一 

的 统计 量 , 即 相同 的 均值 & 和 协 方差 也 。 在 这 些 例 | 





a a tn + | ; ; 
子 中 ,有 必要 引入 更 多 的 参数 来 进一步 描述 数据 的 | ie & 
| i oH pe 
空间 结构 | | 
|) ae om 








= | | | 

如 果 假 设 样 本 都 来 自 于 有 “个 正 态 分 量 密度 的 混合 概率 密度 ,那么 就 可 以 得 到 更 多 真实 
情况 的 近似 结果 。 从 本 质 上 说 ,这 等 价 于 认定 样本 都 落 在 各 种 尺寸 和 方向 的 椭 球 体 之 内 。 如 
林 分 量 密度 的 个 数 足 够 多 ,我 们 几乎 可 以 用 它 通 近 任 何 一 种 概率 分 布 ,并 用 混合 模型 的 参数 来 
描述 数据 。 遗 憾 的 是 ,我 们 已 经 注意 到 混合 密度 的 参数 估计 并 不 简单 。 而 旦 当 数 据 的 先 验 信 
息 极 少时 ,所 假设 的 特定 的 参数 形式 可 能 会 导致 很 差 的 (或 者 毫 无 意义 的 ) 结 果 。 与 其 说 是 寻 
找 数据 的 茶 种 内 部 结构 ,不 如 说 是 我 们 强加 了 某 种 结构 给 这 些 数据 。 

为 一 种 方案 就 是 利用 第 4 章 中 提 到 的 非 参 数 方法 来 估计 混合 密度 。 如 果 正 确 的 话 , 得 到 
的 密度 估计 就 可 以 完全 描述 从 原 数据 中 可 以 学 到 的 东西 。 密 度 较 高 的 区 域 可 能 对 应 一 种 很 重 
要 的 类 别 , 它 可 以 通过 密度 估计 的 峰值 去 发 现 。 

如 条 我 们 的 目标 是 去 发 现 子 类 ,那么 更 直接 的 方法 就 是 聚 类 算法 。 粗 略 地 说 , 聚 类 算法 是 
基于 整个 数据 集 内 部 存在 者 干 “ 分 组 ”或 “ 聚 类 ”为 出 发 点 而 产生 的 一 种 数据 描述 方法 ,每 个 子 
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集中 的 点 具有 高 度 的 内 在 相似 性 。 正 规 的 聚 类 算法 定义 了 一 个 准则 范 数 ,比如 数据 点 到 类 中 
心 的 距离 平方 和 ,并 搜索 最 佳 分 类 使 得 准则 项 数 最 优 。 因 为 这 些 方法 也 会 导致 不 可 控制 的 计 
算 问 题 , 人 们 又 提出 了 很 多 新 的 方法 ,新 的 方法 虽然 在 直觉 上 容易 理解 并 令 人 满意 ,但 往往 结 
果 不 具 有 (或 很 少 具 有 ) 我 们 前 面 讨论 过 的 性 质 。 使 用 这 些 新 方法 ,仅仅 是 因为 它们 容易 应 用 ， 
能 产生 一 些 有 意义 的 结果 ,这 些 结果 会 有 助 于 选用 其 他 更 严格 的 算法 。 

相似 性 度量 

一 旦 我 们 把 聚 类 问题 描述 为 在 一 堆 数 据 中 寻找 一 种 “自然 分 组 ”, 那 么 我 们 就 必须 定义 
“自然 分 组 ”的 含义 。 从 什么 意义 上 ,我 们 能 够 说 同一 类 中 的 样本 比 来 自 不 同类 的 样本 更 为 相 
似 ? 这 个 问题 实际 上 涉及 两 个 独立 的 子 问 题 : 

。 怎样 度量 样本 之 间 的 相似 性 ? 

。 怎样 衡量 对 样本 集 的 一 种 划分 的 好 坏 ? 

在 本 节 中 ,我 们 将 讨论 第 一 个 子 问题 。 

最 明显 的 相似 性 度量 就 是 样本 之 间 的 距离 。 可 以 按照 下 面 的 方法 开始 一 种 聚 类 算法 的 研 
究 。 首 先 定义 一 个 合适 的 度量 ( 见 4.6 节 ), 然 后 计算 任意 两 个 样本 之 间 的 距离 。 如 果 距 离 确 
实 很 好 地 反映 了 相似 性 ,那么 我 们 自然 希望 同一 类 中 的 样本 之 间 的 距离 比 不 同类 之 间 样 本 的 
距离 要 小 得 多 。 

现在 不 妨 假 设 : 如 果 两 个 样本 之 间 的 欧 几 里 德 距离 小 于 某 个 阅 值 4, ,那么 这 两 个 样本 就 
属于 同一 类 。 我 们 马上 发 现 选择 d。 是 非常 关键 的 。 如 果 d, 太 大 ,所 有 的 样本 都 会 被 分 为 同 
一 类 。 如 果 d。 太 小 ,每 个 样本 又 会 单 成 一 类 。 为 了 得 到 “自然 ”的 聚 类 ,d, 必须 大 于 典型 的 到 
类 内 的 距离 ,同时 又 小 于 典型 的 聚 类 间 的 距离 ( 见 图 10-7). 
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图 10-7 ”在 基于 相似 性 的 聚 类 方法 中 ,距离 阔 值 4 影响 着 类 的 数量 和 类 的 大 小 。 图 中 给 出 了 3 
种 不 同 的 dy ,并 用 线条 连接 距离 小 于 do 的 数据 点 一 必 越 小 ,每 个 类 就 越 小 ,类 的 数目 就 越 多 


比较 容易 忽视 的 是 ,上 面 的 分 类 结果 实际 上 取决 于 我 们 选择 作为 相似 性 度量 的 欧 几 里 德 
距离 。 如 果 特 征 空间 是 各 向 同性 的 并 且 数 据 大 致 均匀 地 分 布 仕 各 个 方向 上 ,这 种 选择 一 般 是 
合理 的 。 选 用 欧 几 里 德 距离 得 到 的 聚 类 结果 将 不 会 因 特 征 空间 的 平移 和 旋转 而 改变 ,所 以 数 
据点 如 果 作 刚体 运动 就 不 会 影响 分 类 结果 。 但 是 一 般 地 说 ,对 线性 变换 或 其 他 会 扭曲 距离 关 
系 的 变换 是 不 能 保证 的 。 所 以 ,如 图 10-8 所 示 , 坐 标 轴 的 简单 缩放 就 会 导致 数据 点 的 重新 分 
类 。 当 然 , 对 于 那些 不 自然 的 或 无 意义 的 变换 产生 任意 缩放 ,我 们 不 会 去 考虑 。 但 是 ,如 采 聚 
类 确实 具有 某 种 物理 意义 ,那么 它们 对 问题 的 自然 变换 应 是 不 变 的 。 
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在 聚 类 之 前 先 “ 规 格 化 ?是 一 种 实现 不 变性 的 方法 。 举 例 来 说 ,要 得 到 位 移 和 缩放 的 不 变 
性 ,可 以 通过 平稳 和 缩放 坐标 轴 使 得 新 特征 具有 零 均 值 和 单位 方差 ,这 是 一 种 标准 化 数据 的 方 
法 。 要 得 到 旋转 不 变性 ,可 以 旋转 坐标 轴 使 得 这 些 轴 与 样本 协 方差 矩阵 的 本 征 回 量 平 行 。 这 
种 主 成 分 变换 (10. 13.1 节 ) 也 可 以 在 前 面 或 后 面 接 上 缩放 的 规格 化 的 步骤 。 

但 是 ,并 不 能 下 结论 说 规格 化 一 定 是 必要 的 。 重 新 考虑 一 下 通过 平移 和 缩放 使 得 均值 
为 0、 方差 为 1 的 规格 化 方法 。 这 个 方法 的 出 发 点 是 它 可 以 有 效 防止 某 些 特 征 仪 仅 因为 它 的 
数值 过 大 而 将 主导 (dominate) 距 离 度量 ,正如 用 反 向 传播 训练 神经 网 络 时 ( 见 第 6 章 )。 对 服 
从 正 态 波动 的 随机 向 量 ,用 减 去 均值 并 除 以 标准 差 的 规格 化 作法 是 非常 合理 的 ;但 是 ,如 果 数 
据 的 波动 是 因为 存在 多 个 子 类 ,那么 这 种 规格 化 就 不 合理 了 ( 见 图 10-9)。 因 此 ,对 我 们 感 兴趣 
的 数据 模型 来 说 ,这 种 常规 的 规格 化 方法 就 显得 没有 多 少 用 处 。 


图 10-8 ”缩放 坐标 轴 会 影响 最 小 
距离 聚 类 方法 的 聚 类 结果 。 图 中 
左上 角 是 原始 数据 及 其 最 小 距离 
聚 类 结果 ,红色 的 点 表示 一 类 ,其 
他 类 的 点 都 用 灰色 表示 。 当 纵 轴 
扩展 为 原来 的 2 倍 、 横 轴 缩 小 为 原 
来 的 0.5 倍 后 , 聚 类 结果 就 改变 了 
(如 红 点 所 示 )。 同 样 , 刀 果 纵 轴 缩 
小 为 原来 的 0.5 倍 , 横 轴 扩 展 为 原 
来 的 2 倍 ,就 会 获得 更 多 的 聚 类 
(如 底 图 所 示 )。 总 之 ,上 面 的 两 种 
缩放 方法 都 使 得 舍 类 结果 不 同 于 
在 原始 空间 上 的 聚 类 结果 


5 
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除了 缩放 坐标 轴 外 ,我 们 可 以 找到 很 多 其 他 有 用 的 度量 。 比 如 说 ,第 4 章 中 提 到 的 
Minkowski 度量 就 是 一 类 很 常用 的 度量 方法 , 它 的 形式 为 


d 1/q 

d(x, x’) = (>: lx, 一 xt) (49) 
k=] 

其 中 ,参数 q21. WREE q=2 就 得 到 我 们 熟悉 的 欧 几 里 德 度量 ,设置 q=1 就 得 到 曼 哈 坦 

(街区 ) 度 量 。 注 意 只 有 g=2 才能 保证 距离 度量 具有 平移 和 旋转 不 变性 。 另 一 种 选择 就 是 使 

用 基于 数据 本 身 的 度量 ,比如 Mahalanobis AE. 
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图 10-9 ”在 左 图 中 ,数据 点 分 别 落 
人 两 个 相隔 很 开 的 类 中 ,如 果 对 这 
些 数据 归 一 化 使 得 方差 为 1 就 会 
减少 类 与 类 之 间 的 距离 ,因此 右 图 
中 的 结果 就 很 不 理想 。 如 果 数 据 
都 来 自 于 一 个 单一 的 产生 过 程 ( 或 
伴 有 了 噪声 ), 这 种 归 格 化 方法 会 比 
较 合 通 ; 如 果 有 几 个 不 同 的 产生 过 
程 , 这 种 方法 就 不 合适 了 


更 一 般 地 ,我们 可 以 不 用 距离 ,而 引入 非 度量 的 相似 性 明 数 s(x,X ) 来 比较 向 量 x 和 x 。 
按照 惯例 ,这 是 个 对 称 函数 , 当 x 和 x 具有 某 种 相似 性 时 , 消 数 值 就 比较 大 。 比 如 , 当 两 个 向 量 
的 夹 角 是 个 有 意义 的 衡量 相似 性 的 洱 数 时 , 归 一 化 内 积 

xy’ 


x 





s(x, x’) (50) 
就 比较 合适 。 这 个 度量 函数 对 旋转 和 膨胀 具有 不 变性 ,但 对 平移 和 一 般 的 线性 变换 不 能 保证 。 

当 特 征 是 二 值 的 时 候 ( 取 0 或 1), 式 (50) 所 表示 的 相似 子 数 可 以 从 共 至 属性 的 角度 重新 
解释 。 如 果 样 本 x 具有 第 i 项 属性 , 则 令 z= 二 1。 那 么 xx 不 过 是 x 和 x 同时 拥有 的 (共享 ) 属 
性 的 个 数 , | xii x | = ixx x’) OU RE x 和 x 分别 拥有 属性 个 数 的 几何 均值 。 所 以 
s《x,X') 可 以 用 来 表示 共享 属性 的 相对 比例 。s(x,x ) 还 可 以 具有 一 些 变 化 的 形式 ,如 


f 


sa, x) = (51) 
可 以 表示 共享 属性 个 数 与 特征 维 数 的 比值 ,而 且 
s(x, xX) = Xx (52) 


xXx 十 XX — XX 

表示 共享 属性 个 数 与 x 和 x 一 起 拥有 的 属性 个 数 的 比值 。 式 (52) 度 量 函 数 ( 有 时 称 为 Tanim- 
oto 系数 或 Tanimoto 距离 ) 经 常 在 “信息 检索 ”和 “生物 分 类 学 ”中 出 现 。 相 似 性 的 相对 度量 出 
现在 其 他 应 用 中 ,用 不 同 度量 显示 问题 领域 的 多 样 性 。 

度量 理论 中 的 基本 问题 涉及 距离 或 相似 性 函数 。 两 个 向 量 间 的 相似 性 计算 总 要 涉及 到 和 
们 的 分 量 值 的 组 合 。 然 而 在 许多 模式 识别 的 应 用 中 ,特征 向 量 的 各 个 分 量 常常 不 具有 可 比 性 ， 
比如 米 和 千 米 。 回 忆 以 前 对 鱼 进 行 分 类 的 例子 :我 们 怎么 能 够 将 鱼 的 光泽 度 和 鱼 的 长 度 、 重量 
进行 比较 呢 ? 长 度 到 底 是 以 米 为 单位 好 呢 还 是 以 英寸 为 单位 好 ? 我们 应 该 怎样 处 理 一 个 各 分 
量 代 表 不 同 物 理 意义 的 向 量 呢 ? 一 般 不 存在 通用 的 方法 来 解答 这 些 问 题 。 一 旦 设计 痢 选择 了 
一 个 相似 性 函数 或 对 数据 用 某 种 方法 进行 了 规格 化 ,就 表示 有 额外 的 信息 钻 引 入 来 赋 子 这 些 
操作 物理 意义 。 我 们 也 给 出 了 很 多 经 验 的 例子 和 方法 。 除 此 之 外 ,我 们 只 能 提醒 大 家 注意 这 
些 聚 类 问题 中 的 陷阱 。 

在 所 有 这 些 关于 聚 类 的 讨论 中 ,必须 注意 到 聚 类 后 的 数据 常常 会 被 标记 (例如 通过 教师 或 
少量 带 标记 的 样本 ), 并 被 用 于 对 新 样本 的 分 类 。 如 果 是 这 种 情况 , 聚 类 中 所 用 到 的 相似 性 铬 
数 或 度量 方式 也 应 该 在 后 续 分 类 中 得 到 应 用 (上 机 练习 8). 


10.7 BAD) BR 
我 们 刚刚 讨论 了 聚 类 问题 第 一 个 重要 概念 , 即 怎样 衡量 “相似 性 "。 现 在 来 考虑 第 二 个 重 
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要 概念 : 待 优化 的 准则 函数 。 假 设 有 个 样本 组 成 的 集合 DD 二 (xi ，…,x,) ,要 分 为 c 个 互 不 重 
BWTED ,…,D.。 每 个 子 集 代 表 一 个 聚 类 ,同一 类 中 的 样本 点 比 不 同类 中 的 样本 点 具有 更 
高 的 内 在 相似 性 。 通 过 定义 准则 范 数 就 可 以 将 聚 类 问题 明确 地 表达 出 来 , 即 要 找到 一 种 划分 
使 得 准则 函数 最 优 。 在 本 节 中 ,我们 将 首先 研究 几 种 非常 相似 的 准则 函数 ,而 将 如 何 找到 最 优 
划分 放 在 本 节 最 后 。 
10.7.1 误差 平方 和 准则 

“误差 平方 和 准则 ”(sum-of-squared-error criterion) 是 一 种 很 简单 而 且 应 用 很 广泛 的 准 
则 。 令 n 表示 子 集 D; 中 样本 的 数量 ,m; 表示 那些 样本 的 均值 : 


m; = 一 ` X (53) 
于 是 误差 平方 和 定义 为 


J=% 》 lx- m;l? (54) 


i=l xeD; 


XAA ME pR CAT A fj BA He ER HER PS RAD: WRAD: PRA” E x 一 m; K 
度 平方 和 为 最 小 的 意义 上 讲 ,均值 向 量 m 是 最 能 代表 D; 中 所 有 样本 的 一 个 癌 量 。 因 此 ,J. & 
量 的 是 用 c 个 均值 向 量 m em, 分 别 代表 nn 类 样本 x x, 而 产生 的 平方 和 误差 。J 的 值 
取决 于 类 别 的 数目 和 样本 的 分 类 情况 。 最 优 划分 被 定义 为 使 得 J. 最 小 的 划分 。 这 样 的 聚 类 
通常 也 称 为 最 小 方差 划分 (minimum variance partition) 。 
什么 样 的 聚 类 问题 比较 适合 用 “误差 平方 和 准则 ” 呢 ? 基本 上 , 当 数 据点 能 划分 成 能 很 好 
区 分 的 几 类 ,而 类 内 数据 又 很 稠密 时 ,采用 J. 是 比较 合适 的 。 但 是 J. 准则 还 有 一 个 潜在 的 问 
题 , 即 当 不 同 聚 类 所 包含 的 样本 个 数 相差 较 大 时 ,将 一 个 大 的 类 别 分 割 开 反而 可 能 具有 更 小 的 
误差 平方 和 ,如 图 10-10 所 示 。 这 种 情况 会 因为 发 生出 格 点 ”而 经 常 出 现 , 因 此 有 必要 对 聚 类 
结果 给 出 一 种 评价 方法 。 可 惜 目前 对 这 个 问题 还 缺乏 足够 的 认识 ,我 们 只 能 建议 如 果 有 一 些 
额外 的 考虑 发 现 最 小 化 J. 的 结果 并 不 理想 ,那么 这 些 考虑 也 应 该 被 综合 起 来 构成 一 个 更 好 的 
准则 函数 。 
图 10-10 当 两 个 自然 数据 群 中 的 点 的 个 数 相 差 很 
大 时 ,根据 式 (54) 最 小 化 误差 平方 和 准则 函数 J. 得 
到 的 聚 类 结果 并 不 一 定 反映 真实 的 情况 。 在 图 中 ， 
底部 的 划分 比 顶 部 的 划分 具有 更 小 的 误差 平方 和 





10.7.2 相关 的 最 小 方差 准则 
经 过 一 些 简单 的 代数 操作 (习题 20) ,我 们 就 可 以 从 J. 的 表达 式 中 去 掉 均 值 向 量 ,得 到 一 
个 等 价 的 表达 式 
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Je = =) nisi (55) 
2 i=] 
其 中 
_ ] , 
5= = 2, 2 Iix- x’? (56) 
n; xeD; xl eD; 


式 (56) 人 允许 把 5 解释 为 第 i 类 中 点 与 点 距离 平方 的 平均 值 ,并 同时 指出 最 小 误差 平方 和 准则 
是 用 欧 几 里 德 距离 作为 相似 性 度量 的 。 这 也 提醒 我 们 可 以 构造 其 他 准则 函数 。 比 如 可 以 将 5 
替换 为 第 ;: 类 中 点 与 点 距离 的 平均 值 、 中 值 或 最 大 值 。 更 一 般 地 ,可 以 引入 一 个 合适 的 相似 性 
函数 s(x,x ) 按 照 下 面 的 方式 替换 5: 


- l 
i= -3 DD sx) (57) 
i xe€D; x eD, 
或 者 
= ep CX) (58) 


正如 在 第 4 章 中 的 一 样 ,我 们 定义 最 优 划分 就 是 使 得 准则 函数 取 极 值 的 划分 。 这 样 我 们 很 严 
格 地 定义 了 问题 ,并 希望 聚 类 问题 的 解答 能 反映 数据 固有 的 内 部 结构 。 
10.7.3 散布 准则 
散布 矩阵 

我 们 曾 在 多 重 判 别 分 析 (multiple discriminant analysis) 中 用 过 散布 矩阵 ,现在 我 们 将 从 
这 个 矩阵 导出 另外 一 些 有 趣 的 准则 函数 。 在 表 10-1 中 的 定义 是 直接 与 第 3 章 中 的 某 些 内 容 
是 一 致 的 ( 表 中 的 Yes 和 No 是 表明 该 项 数据 是 否 与 聚 类 中 心 有 关 )。 


表 10-1 用 于 聚 类 准则 的 均值 向 量 和 散布 矩阵 


均值 向 量 和 散布 矩阵 是 否 与 聂 类 中 心 有 关 定义 
l 
第 i 类 的 均值 向 量 No m; =- ` X (59) 
' eD; 
m= F x= nm 6 
总 体 均 值 向 量 No => a = A iM; (60) 
第 i 类 的 散布 矩阵 Yes Si = >, (x — m,)(x — m) (61) 
xe D; 
类 内 散布 矩阵 Yes Syw 二 SS: (62) 
i=] 
类 间 散 布 矩 阵 Yes Sp = J n;(m; — m)(m; — m) (63) 
i=] 
总 体 散布 矩阵 No Sp =) (x—m)(x — my (64) 


xeED 





就 像 前 面 的 一 样 , 从 表 10-1 中 可 以 立刻 推出 总 体 散布 矩阵 是 类 内 散布 矩阵 和 类 间 散 布 定 
阵 的 和 
Sr = Sw + Sg (65) 
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注意 总 体 散 布 矩 阵 与 样本 集 的 具体 划分 方式 无 关 , 它 仅仅 取决 于 全 体 样 本 。 类 内 散布 矩阵 和 


类 间 散 布 矩 阵 是 由 划分 决定 的 。 大 致 上 ,这 两 个 量 之 间 存 在 一 种 互补 的 关系 :如 果 类 内 离散 度 
增 大 , 则 类 间 离 散 度 就 会 减少 。 这 是 个 非常 好 的 性 质 ,因为 当 我 们 试图 最 小 化 类 内 离散 度 时 
候 , 那 么 最 大 化 类 间 离 散 度 是 同时 进行 的 。 

为 了 更 准确 地 讨论 类 内 离散 度 或 类 间 离 散 度 ,下 面 我 们 引入 一 种 标量 来 衡量 每 个 散布 矩 
阵 。 我 们 将 要 考虑 的 是 矩阵 的 迹 和 和 行列 式 。 在 矩阵 是 1 x 1 大 小 时 ,这 两 个 标量 是 一 样 的 ,我 
们 可 以 定义 一 个 优化 划分 使 得 Sw 最 小 化 或 使 得 Ss 最 大 化 。 在 多 维 情况 下 ,情况 就 更 复杂 一 
些 , 于 是 下 面 提出 了 一 些 有 联系 但 又 各 不 相同 的 准则 。 
基于 迹 的 准则 | 

散布 矩阵 最 简单 的 标量 度量 或 许 是 它 的 迹 , 也 就 是 矩阵 对 角 线 上 元 素 的 和 。 粗 略 地 说 , 迹 
代表 的 是 散布 半径 的 平方 ,因为 它 正 比 于 数据 在 各 个 坐标 轴 方 向 上 的 方差 的 和 。 因 此 ,Sw 的 
迹 就 可 以 成 为 一 个 准则 函数 。 事 实 上 ,这 个 准则 与 误差 平方 和 准则 是 完全 等 价 的 ,由 散布 矩阵 
的 定义 易 得 


C 


[Sw] = $ tiS] = >> >> lx— m? = J, (66) 
i=] 


i=] xeD; 


又 因为 trLS; |=trLSy 十 trLSs jj 并且 trLSzrj 与 具体 的 划分 方式 无 关 , 所 以 我 们 在 最 小 化 类 内 淮 
则 J.=trl Sw ] 的 同时 ,也 最 大 化 了 类 间 准 则 


tr[Se] = $ nilm; — mj? (67) 
i=] 


基于 行列 式 的 准则 

我 们 已 说 过 可 以 用 矩阵 的 行列 式 作 为 散布 矩 阵 的 标量 度量 。 大 约 说 来 ,行列 式 衡量 的 是 
散布 体积 (scattering volume) 的 平方 ,因为 它 正比 于 数据 在 各 个 主轴 方向 上 方差 的 积 。 当 类 
别 的 数量 c 小 于 或 等 于 数据 的 维 数 d 时 ,Ss 就 会 是 奇异 的 。 因 此 ,|Ss | 显然 不 是 一 个 好 的 准 
Wes. MA wR n—c<d 时 ,Ss 也 会 是 奇异 的 (习题 29)。 鉴 于 这 些 问题 ,我 们 假定 Sw 是 
非 奇 异 的 ,于 是 得 到 准则 函数 


c 


ys 


i=l 


Ja = Swi = (68) 








最 小 化 准则 函数 Ja 得 到 的 划分 有 时 候 是 同 最 小 化 J. 得 到 的 结果 一 样 的 ,但 是 例 2 中 两 种 结 
采 是 不 同 的 。 在 前 面 的 基于 最 小 平方 和 误差 的 聚 类 会 因为 坐标 轴 的 缩放 而 改变 结果 ,但 这 个 
问题 不 会 影响 基于 J: 的 聚 类 (习题 27)。 所 以 准则 J. 在 存在 未 知 线性 变换 的 场合 下 是 比较 
受 欢迎 的 。 
基于 不 变量 的 准则 

不 难 证 明 Sw Ss 的 本 征 值 4: ,... A. 在 非 奇异 线性 变换 下 是 一 个 不 变量 (习题 28) 。 事 实 
E ,这些 本 征 值 是 散布 矩阵 最 基本 的 线性 不 变量 。 它 们 的 数值 衡量 的 是 类 间 散 布 和 类 内 散布 
在 对 应 本 征 向 量 方向 上 的 比值 。 因 此 能 产生 较 大 本 征 值 的 划分 是 比较 令 人 满意 的 。 当 然 , 如 
我 们 前 面 所 看 到 的 ,矩阵 Ss 的 秩 不 能 超过 次 < 一 1, 因 而 最 大 有 c 一 1 项 本 征 值 是 非 零 的 。 但 
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是 ,好 的 聚 类 划分 是 指 那些 非 零 本 征 值 较 大 的 划分 。 
通过 设计 基于 这 些 本 征 值 的 函数 ,我 们 就 可 以 得 到 一 大 类 基于 不 变量 的 聚 类 准则 函数 。 


其 中 有 些 直 接 来 自 于 标准 的 矩阵 操作 。 比 如 ,因为 矩阵 的 迹 也 是 它 的 本 征 值 的 和 ,所 以 我 们 可 


以 最 大 化 准则 琐 数 


d 
[Sp Ss] = oa; | (69) 


i=] 
利用 关系 式 Sr 二 Sw 十 Ss ,我 们 可 以 导出 基于 trLSw] 和 |Sw | 的 公式 (习题 26) ， 


d 
1 
J, =trfSz Sw] = inn (70) 


i=l 


Swi 7 1 
Si = [| = (71) 
因为 这 些 准则 函数 都 具有 线性 变换 不 变性 ,所 以 对 应 的 最 优 划 分 也 具有 不 变性 。 一 个 特殊 的 
例子 就 是 只 有 两 类 的 情况 ,有 一 个 本 征 值 是 非 零 的 ,上 面 所 有 的 准则 会 产生 同样 的 聚 类 效果 。 
但 是 当 有 更 多 类 别 时 ,这 些 准则 对 应 的 最 优 划分 虽然 很 相似 ,但 并 不 完全 相同 ,这 点 在 例 2 中 
会 清楚 地 看 到 。 


例 2 聚 类 准则 比较 

通过 将 不 同 的 聚 类 准则 应 用 到 下 面 的 数据 上 ,我 们 将 能 获得 更 直观 的 理解 。 从 下 面 可 以 
看 到 ,所 有 的 聚 类 结果 都 显得 很 合理 ,不 存在 很 强 的 论断 来 更 好 的 支持 某 种 准则 。 当 聚 类 数目 
c= 2 时 ,最 小 化 J. 得 到 的 结果 倾向 于 将 数据 点 平均 分 到 两 个 类 中 ;相反 ,Js 比较 倾向 于 一 个 
类 大 一 个 类 小 。 因 为 数据 横向 分 布 多 于 纵向 分 布 ,横向 方向 上 的 本 征 值 大 于 纵向 方向 的 本 征 
值 , 所 以 聚 类 都 是 某 种 程度 的 水 平分 布 。 一 般 说 来 , 当 聚 类 数目 很 大 时 , 聚 类 准则 就 显得 不 那 
LERI. EWE c=3 下 , 聚 类 只 是 轻微 地 依赖 于 聚 类 准则 一 一 事实 上 有 两 个 聚 类 是 完全 相 
同 的 。 


Sample XI Sample 
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在 顶 图 中 ,原始 数据 并 没有 显示 出 明显 的 类 别 。 通 过 最 小 化 准则 机 数 得 到 的 聚 类 不 仅 取 决 于 这 个 
函数 ,而且 还 取决 于 假设 的 类 别 数 目 。3 种 准则 一 一 误差 平方 和 准则 J.( 式 (54))、 基 于 行列 式 的 准 


则 Ja( 式 (68)) 和 基于 迹 的 准则 J( 式 (70)) 分 别 应 用 在 上 表 中 的 20 个 数据 点 上 ,并 假定 < 一 2 和 
c 二 3。( 表 中 所 有 的 点 都 显示 在 图 中 ,边界 框 为 一 1. 8 二 zi 过 2.5 M—0.6<2,<1.9,) 





在 式 (71) 所 表示 的 准则 中 ,Sz 与 具体 的 划分 无 关 , 因 此 最 小 化 |Sw 1/|Sr | 等 价 于 最 小 化 
[Sw | 。 如 果 我 们 通过 旋转 和 缩放 坐标 轴 使 得 Sr 变 成 了 单位 矩阵 ,那么 最 小 化 tr[LS7'Sw ] 就 等 
价 于 最 小 化 误差 平方 和 准则 trLSw]。 显 然 , 这 个 准则 具有 我 们 在 “相似 性 度量 ”一 节 中 谈 到 过 
的 缺点 ,因而 可 能 是 这 些 准 则 中 最 不 受 欢迎 的 一 个 。 

下 面 是 不 变量 准则 的 一 个 注意 事项 。 如 果 通 过 缩放 坐标 轴 或 任何 其 他 的 线性 变换 可 以 明 
显 观 察 到 数据 可 以 有 很 多 种 不 同 的 划分 ,那么 这 些 可 能 的 划分 都 会 反映 在 用 不 变量 作 准 则 进 
行 聚 类 的 过 程 中 。 因 此 ,不 变量 准则 函数 很 可 能 出 现 多 个 峰值 的 情况 ,因而 比较 难 优化 。 

我 们 至 此 讨论 了 很 多 聚 类 准则 函数 ,也 分 析 了 它们 的 不 同 之 处 ,但 是 应 该 清楚 它们 在 本 质 
上 的 相似 性 。 每 种 准则 都 假定 待 处 理 数 据 可 以 被 很 清楚 地 分 成 < 类 ,类 内 散布 矩阵 Sw 用 来 衡 
量 类 内 数据 点 的 紧密 性 ,而 基本 的 目标 是 找到 最 紧密 的 一 种 划分 。 虽 然 这 些 准则 在 很 多 问题 
中 都 体现 出 很 强 的 实用 性 ,但 它们 其 实 并 不 具有 通用 性 。 举 例 来 说 ,它们 不 能 解决 一 个 密集 的 
类 被 一 个 稀疏 的 类 所 包围 的 情况 ,也 不 能 对 付 互相 绞 缠 在 一 起 的 线条 式 的 几 个 类 。 如 果 最 后 
结果 对 应 的 准则 的 最 小 值 不 够 小 , 聚 类 结构 不 能 由 算法 推断 ,我 们 必须 设计 另外 的 聚 类 准则 ， 
以 便 更 好 地 与 现 有 的 或 寻找 中 的 结构 相 匹 配 .。 


* 10.8 RRR 


一 旦 选择 了 准则 函数 , 聚 类 已 经 成 为 离散 优化 问题 中 有 明确 定义 的 一 个 问题 :找到 一 种 对 
样本 集 的 划分 ,使 得 准则 函数 取 极 值 。 样 本 集 是 有 限 的 ,所 以 所 有 可 能 的 划分 方式 也 是 有 限 
的 。 在 理论 上 , 聚 类 问题 总 是 可 以 通过 穷 举 找到 答案 。 但 是 ,除了 对 付 那 些 极其 简单 的 问题 
外 , 穷 举 法 因 计 算 复 杂 度 太 大 而 不 具有 实用 性 。 对 有 2 个 元 素 的 数据 集 MA c/c! 种 可 能 的 
划分 将 它们 分 为 < 类 ,可 能 的 划分 数目 是 随 着 c 成 指数 增长 的 (习题 18)。 比 如 要 对 含有 100 
个 数据 点 的 集合 聚集 5 类 就 需要 考虑 超过 lO 个 可 能 划分 。 简 而 言 之 , 穷 举 法 对 大 多 数 聚 类 
应 用 来 说 是 不 适用 的 。 
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迭代 最 优化 方法 经 常 被 用 于 寻求 最 优 划分 。 它 的 基本 思想 就 是 首先 找到 一 些 较 好 的 初始 
划分 ,然后 调整 每 个 样本 所 属 类 别 , 使 得 调整 后 的 准则 沿 数 值 会 改善 。 就 如 息 山 法 - - 样 ,这 些 
算法 只 能 保证 局 部 最 优 而 不 是 全 局 最 优 。 不 同 的 初始 点 会 导致 不 同 的 最 后 结果 ,而 且 无 人 知 
道 是 否 已 经 找到 了 全 局 最 优 答案 。 尽 管 有 这 些 缺 点 ,但 这 些 方法 还 是 由 于 计算 复 薪 度 不 高 而 


倍 受 欢 迎 。 
下 面 让 我 们 来 考虑 利用 迭代 方法 使 误差 平方 和 准则 
Je = > Jj (72) 
达到 最 小 值 , 其 中 聚 类 的 有 效 误 差 凡 被 定义 为 
=F em as 
每 个 聚 类 的 均值 m, 在 前 面 已 经 定义 为 
m; = a (53) 


假设 现在 有 一 个 样本 2, ERK FRAD, ,现在 要 被 放 到 聚 类 7 中 。 于 是 ,mj 成 为 


x- mM; 






































m = m; 74 
j jt nj +1 (74) 
而 J; 增加 为 
Je = $ Ix — ml)? + l- m5)? 
xeD; 
- (=k m tomi), G mpl (75) 
-— -mj — om, 
xeD; n;+l n;+l J 
n. 
= J; | 名 一 ml 
jt ml 


我 们 假定 n; 关 1( 即 只 有 一 个 样本 的 类 不 应 该 被 删除 ) ,那么 用 类 似 的 方法 (习题 31) 就 可 以 发 


(76) 





而 J; 下降 为 





六 nj A 2 
Ji = I - |x — m; || (77) 
nj; — | 


上 面 各 式 极 大 地 简化 了 准则 函数 的 计算 。 如 果 J 的 减少 量 比 万 的 增加 量 还 大 ,那么 x 
MRED: 转移 到 至 类 D; 中 是 有 利 的 。 这 就 是 


nj 


|X — m, ||’ (78) 





< 2 nj 
x — m; ||" > 
n; — 1 nj; 十 1 


的 情形 ,通常 出 现在 x 离 mi 比 离 m; 更 近 的 时 候 。 如 果 这 种 转移 是 有 利 的 ,我 们 可 以 选取 最 佳 
的 j 关 i 使 得 对 应 的 一 二 ‖x 一 mi | "最 小 ,从 而 引出 了 下 面 的 算法 ;: 
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算法 3 (基本 的 迭代 最 小 平方 误差 聚 类 算法 ) 


l begin initialize n,c,m; ,m;,...,m. 

2 do 随机 选取 一 个 样本 x 

3 i<-arg min | my 一 x || (分 类 x) 
4 if nA~A1 then 计算 


n; A, 2 . + 
zi lX — ml JF 


5 i= n; A 。 。 
GT] ey — m2 j=: 
6 if o, Se; 对 于 所 有 j then HE x AD, 
7 重新 计算 J mi ,Im 
8 until 在 次 计算 中 J 不 再 改变 
9 return ml ,M:,... M. 


10 end 


对 这 个 算法 稍 作 考虑 就 会 友 现 它 其 实 是 上 -均值 算法 的 一 种 变形 (10. 4. 3 市 中 的 算法 1). 
k -均值 算法 在 每 次 更 新 前 都 要 对 所 有 的 数据 点 重新 分 类 ,而 这 个 方法 每 次 对 一 个 样本 重新 分 
类 后 就 进行 更 新 。 实 验 中 发 现 本 方法 更 易于 陷入 局 部 极 小 值 ,而 且 同 时 受到 对 样本 调整 顺序 
的 影响 。 然 而 它 毕 竞 是 一 种 逐步 求 精 的 算法 ,而 且 很 容易 作 些 改动 使 得 它 能 处 理 顺 序数 据 流 
或 需要 在 线 聚 类 的 场合 。 

困扰 所 有 疏 山 算法 的 基本 问题 是 如 何 选取 初始 点 。 很 遗憾 ,这 里 不 存在 既 简 单 又 通用 的 
解答 。 一 个 可 以 想到 的 方法 是 随机 地 选取 c 个 样本 作为 初始 的 类 中 心 , 再 用 上 述 方法 进行 分 
类 。 重 复 地 随机 选取 不 同 初 始 值 并 分 类 ,使 我 们 可 以 了 解 分 类 结果 对 初始 点 的 敏感 程度 。 田 
一 个 方法 就 是 根据 (c 一 1)- 聚 类 问题 的 解 找到 c- 聚 类 问题 的 起 始点 。 因 为 类 别 数目 为 1 的 聚 
类 中 心 就 是 所 有 样本 的 均值 ,所 以 类 别 数 目 为 c 的 初始 聚 类 中 心 可 以 利用 前 面 c-1 类 的 聚 类 
中 心 再 加 上 与 这 个 (c 一 1)- 取 类 问题 最 近 中 心 相 距 最 远 的 样本 点 。 这 个 方法 把 我 们 直接 引 辣 
一 类 称 为 层次 聚 类 的 算法 (hierarchical clustering procedure) ,这 类 算法 虽然 简单 ,但 是 能 为 上 
述 迭 代 算 法 提供 很 好 的 初始 点 。 
10.9 层次 聚 类 

直到 现在 ,我们 所 讨论 的 聚 类 方法 形成 的 类 和 类 之 间 没 有 任何 联系 。 用 计算 机 科学 的 术 
语 来 说 ,这 种 数据 描述 方法 是 “平坦 ”的 。 但 是 在 现实 世界 中 存在 很 多 这 样 的 情况 ,一 个 大 类 包 
含 很 多 子 类 , 子 类 又 包含 很 多 更 小 的 子 类 。 比 如 ,在 生物 分 类 学 中 ,整个 生物 界 被 分 成 各 种 门 ， 
门 包含 很 多 纲 , 纲 包含 很 多 目 , 目 由 很 多 科 组 成 ,等 等 ,直到 特定 的 个 体 生 物 。 于 是 ,我 们 可 以 
有 生物 界 二 动物 , 门 = 准 索 动物 类 , 纲 = 疹 椎 动物 ,类 == 鱼 类 , 子 类 = 有 鳍 色 , 目 == 狂 类 鱼 , 科 = 
狂 鱼 ,等 等 ,直到 最 末 的 个 体 种 类 = 大 马 哈 鱼 。 动 物 王国 中 的 各 个 种 类 HE an KK ls BE 
鹿 有 着 很 多 相同 的 属性 ,但 这 些 属性 却 不 存在 于 植物 王国 中 ,比如 红木 树 。 事 实 上 ,这 种 
层次 聚 类 的 思想 在 科学 活动 中 扮演 着 很 重要 的 作用 。 因 此 现在 我 们 来 研究 一 些 “ 分 层次 的 ”而 
不 是 平坦 结构 的 聚 类 方法 。 
10.9.1 定义 | 

让 我 们 考虑 对 nn 个 样本 聚 成 c 类 的 情况 。 首 先 ,将 所 有 样本 分 成 n 类 ,每 类 正好 含有 一 个 
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样本 。 其 次 ,我 们 将 样本 分 为 x 一 1 类 ,接着 是 "一 2 类 ,这 样 下 去 直到 所 有 样本 都 被 分 为 一 类 。 


我 们 称 聚 类 数目 < 一” 一 上 十 1 对 应 层次 结构 的 第 k 层 ,因此 第 1 层 对 应 n 个 类 别 而 第 nn 层 对 应 
一 个 类 别 。 对 层次 结构 的 任意 一 层 及 其 该 层 中 的 任意 两 个 样本 ,如 果 它 们 在 该 层 中 属于 同一 
类 ,而 且 在 更 高 的 层次 一 直属 于 同一 类 ,那么 这 样 的 序列 称 为 “层次 聚 类 ”(hierarchical cluste- 
ring) 。 

最 自然 的 表达 “层次 聚 类 ?的 方式 就 是 树 , 即 样本 分 组 中 的 树 图 (dendrogram)。 它 能 体现 各 
个 样本 是 如 何 聚 在 一 起 的 。 图 10-11 中 给 出 的 树 图 对 应 的 是 8 个 样本 的 简单 情况 。 在 第 1 层 
k 二 1 时 ,有 8 个 类 。 在 第 2 层 , 样 本 x Ax 被 聚 在 一 起 ,并 在 后 面 的 层次 中 始终 处 于 同一 类 中 。 
如 有 果 我 们 可 以 衡量 不 同类 别 之 间 的 相似 程度 ,就 可 以 在 树 图 中 加 上 相似 性 标尺 (similarity scale) 
来 表示 这 种 关系 。 在 图 10-11 中 ,第 5 层 有 两 个 类 被 合 在 一 起 ,它们 的 相似 性 大 致 为 60， 


图 10-11 树 图 可 以 用 来 表示 层次 4 3 FP SEEE w 
聚 类 算法 的 结果 。 坚 向 的 坐标 轴 表 k=2 <5 90 
示 类 和 类 之 间 的 相似 性 标尺 。 在 第 “3 80 
k=l 层 , 所 有 的 8 个 点 各 自 成 类 。 F253 aol 相 
由 于 xs 和 x 是 最 相似 的 ,因此 它们 4-6 一 SO} fe 
首先 在 第 k= 二 2 层 得 到 合并 。 如 此 继 ”k= 二 Go 标 
. 续 下 去 得 到 整个 树 图 201 5 


0 


我 们 不 久 就 会 谈 到 如 何 获 得 这 些 相 似 性 ,现在 先 请 注意 相似 性 可 以 用 来 判断 在 树 图 中 某 
些 聚 类 操作 是 否 自然 。 当 在 某 层 次 中 ,类 和 类 之 间 的 相似 性 都 比较 均匀 ,那么 就 没有 足够 的 理 
由 说 某 些 类 应 该 聚 在 一 起 。 相 反 ,假如 第 k 层 对 应 3 个 类 别 , 第 k 一 1 层 对 应 4 个 类 别 , 而 这 两 
层 的 相似 性 相差 得 非常 大 ,那么 我 们 就 比较 有 把 握 地 说 聚 成 4 类 是 比较 合理 的 (习题 37) 。 

另 一 种 表达 层次 聚 类 的 方式 是 集合 ,每 个 层次 上 的 类 都 可 能 含有 作为 子 类 的 集合 ,正如 
图 10-12 中 所 示 的 那样 。 还 有 一 种 用 纯 文 本 符号 表示 的 方法 ,如 { {xi, {xz ,xs)),({{x4 ,Xs)， 
{xe ,X71)} ,Xs}}。 这 些 方法 虽然 能 够 表达 层次 关系 ,但 无 法 定量 地 体现 相似 性 。 正 因为 这 个 原 
因 , 树 图 更 容易 被 接受 。 

图 10-12 ”用 集合 图 (又 称 “ 维 恩 图 ”,Venn diagram) 可 以 表示 层次 

结构 ,但 不 能 定量 地 反映 类 和 类 之 间 的 距离 。 本 图 中 所 用 数据 来 

自 图 10-11 中 ,层次 数 用 红色 的 数字 表示 





层次 限 类 方法 因 其 简明 的 概念 成 为 无 监督 学 习 方法 中 最 重要 的 一 种 。 该 方法 可 以 通过 两 
种 途径 实现 :合并 (agglomerative) 和 分 裂 (Cdivisive) 。 合 并 ( 自 底 向 上 ) 时 , 先 使 得 每 个 样本 各 
成 一 类, 然后 通过 合并 不 同 的 类 ,来 减少 类 别 数目 。 分 裂 ( 自 顶 向 下 ) 时 , 先 将 所 有 样本 归 人 一 
关 , 然 后 通过 后 续 分 裂 ,来 增加 类 别 数 目 。 对 合并 方法 来 说 ,从 一 个 层次 到 另 一 个 层次 所 需 的 
计算 比较 简单 。 但 是 如 果 样 本 过 多 而 期 望 的 类 别 数目 又 很 少 ,这 种 计算 会 被 反复 多 次 地 执行 。 
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为 了 方便 起 见 ,我 们 下 面 将 重点 放 在 合并 方法 上 ,分裂 方 法 将 在 10. 12 市 作 简单 的 介绍 。 
10.9.2 基于 合并 的 层次 聚 类 方法 
主要 算法 步骤 列 在 下 面 的 算法 过 程 中 ,其 中 是 期 望 的 最 后 聚 类 数目 。 


算法 4 (基于 合并 的 层次 聚 类 方法 ) 








1 begin initialize c,c<-n,D:i<-{x;},i=1,... on 

2 do c<c—1 

3 KR ITN RA. AMD: AD; 
4 RFD: MD; 

9 until C=C 

6 return c RX 

7 end 


当 指 定 的 类 别 数目 满足 时 ,算法 就 停止 。 如 果 我 们 令 c= 二 1, 就 可 以 生成 如 图 10-11 那样 
552| 一 个 树 图 。 在 每 一 层 上 ,两 个 最 相似 的 类 之 间 的 距离 可 以 反映 它们 的 相似 性 。 但 是 到 目前 为 
止 ,我 们 还 没有 定义 如 何 衡量 不 同类 别 之 间 的 相似 性 。 下 面 将 要 考虑 的 定义 和 前 面 讨论 的 如 

何 选择 聚 类 准则 函数 非常 类 似 。 为 简单 起 见 ,我 们 只 讨论 下 面 的 几 种 距离 度量 ; 


dmin(Di, Dj) = min Ix — x |l 





(79) 
VED; 
dmax (Di, D;) 一 uD, Ix 一 其 Í (80) 
ED, 
I 
dave (Di, Dj) = >》 >》 lx 一 xl (81) 
Ain; xe Di xeDj; 
dmean(D;, D;) = |m; — mj | (82) 


所 有 这 些 度量 公式 都 有 些 类 似 于 最 小 方差 准则 ,而 且 它 们 常常 会 产生 同样 的 结果 ,只 要 数据 能 
形成 紧密 而 互相 分 隔 较 好 的 类 。 但 是 ,如 果 类 和 类 离 得 很 近 ,或 它们 的 形状 不 是 那么 规则 的 超 
球体 ,就 会 得 到 很 不 相同 的 结果 。 下 面 我 们 将 说 明 一 些 不 同 之 处 。 

先 让 我 们 看 一 个 最 基本 的 基于 合并 的 层次 案 类 法 的 计算 复杂 度 问 题 。 假 设 有 个 待 分 类 
的 模式 (样本 ) ,它们 都 在 d 维 空间 中 。 用 式 (79) 定 义 的 距离 来 聚 类 c 个 类 别 。 对 所 有 样本 点 
两 两 之 间 的 距离 都 要 计算 ,但 只 计算 一 次 ,共有 n(n 一 1) 个 距离 ,每 个 距离 需要 OCd’) 次 运算 。 
计算 的 结果 被 存 人 一 个 表 中 ,相应 的 空间 复杂 度 为 OC )。 第 一 次 合并 时 要 找到 最 徘 近 的 两 
个 点 ,需要 遍历 所 有 可 能 的 组 合 , 还 要 保留 最 小 距离 的 点 , 因此 有 Ontn 一 1)(d 十 1)) 
二 O(n2qd?) 次 计算 。 在 后 续 的 合并 中 (比如 从 < 到 c 一 1) ,我 们 只 需 遍 历 r(n 一 1) 一 c 个 尚未 用 到 
的 距离 ,找到 其 中 使 得 x 和 x 分别 属于 不 同类 的 最 小 的 那个 距离 。 这 样 又 有 O(n(n 一 1) 一 c) 
次 运算 。 因 此 总 的 计算 复杂 度 为 Ord) AA noe., 


有 一 些 排序 和 安排 数据 的 方法 ,如 果 使 用 在 记录 距离 的 表 中 就 可 以 提高 检索 速度 ,避免 不 必要 的 查询 。 但 是 它们 
并 不 能 显著 地 改善 计算 复杂 度 。 
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最 近邻 算法 

当 用 式 (79) 给 出 的 dl (，,，) 作 为 距离 度量 时 ,得 到 的 算法 4 又 称 为 “最 近邻 算法 ”。 如 
宋 一 旦 最 近 两 个 类 的 距离 超过 某 个 任意 给 定 的 阐 值 ,算法 就 自动 结束 ,这 个 方法 又 可 以 称 为 单 
连接 算法 (single-linkage algorithm) 。 假 定数 据点 构成 了 图 上 的 节点 , 子 集 D; 包含 通过 边 互 
TAG Xs. RA dwn(，,，*) 计 算 集合 与 集合 的 距离 ,那么 通过 找到 最 近邻 点 
束 可 以 找到 最 近 子 集 。 将 集合 D; AMD; 合并 等 价 于 在 分 别 来 自 这 两 个 集合 同时 又 靠 得 最 近 的 
两 个 项 点 上 加 一 条 边 。 因 为 边 总 是 连接 不 同 聚 类 的 桥梁 ,所 以 图 中 不 会 存在 闭环 。 用 图 论 的 
术语 说 ,这 个 过 程 产生 了 一 个 树 。 如 果 此 过 程 继 续 下 去 ,直到 所 有 的 子 集 连 成 为 一 个 大 类 , 结 
采 就 得 到 了 “生成 树 ”(spanning tree)。 这 个 生成 树 的 任意 两 个 节点 都 是 连通 的 ,而 且 边 长 度 
的 和 是 所 有 生成 树 中 最 短 的 (习题 39)。 因 此 , 聚 类 算法 此 时 变 成 了 “最 小 生成 树 ”(minimal 
spanning tree) 算 法 。 

图 10-13 吏 是 利用 该 算法 处 理 一 组 正 态 数据 得 到 的 结果 。 在 图 中 的 两 种 情况 下 ,算法 都 
被 终止 ,输出 了 两 个 大 类 和 3 个 各 自 成 类 的 孤立 点 。 如 果 在 两 个 大 类 之 间距 离 最 近 的 一 对 点 
上 加 一 条 边 ,就 可 以 得 到 一 个 最 小 生成 树 。 在 左边 的 示例 中 ,由 于 红 点 和 黑 点 分 得 很 开 , 所 以 
聚 类 结果 也 不 错 。 在 右边 的 示例 中 ,由 于 一 个 额外 的 点 在 两 个 大 类 之 间 搭 起 一 个 桥 ,结果 得 到 
一 个 过 大 的 类 和 一 个 过 小 的 类 。 这 种 情况 通常 称 为 “链接 效应 ”(chaining effect), 它 也 被 视 为 
最 近邻 法 的 一 个 缺陷 。 综 上 所 述 ,本 算法 的 聚 类 结果 对 噪声 或 数据 点 的 波动 非常 敏感 。 这 是 


一 个 非常 合理 的 评价 。 


最 近邻 法 给 出 的 结果 很 好 地 逼近 产生 
的 正 态 模 型 。 但 是 ,一 旦 有 一 个 新 的 
点 产生 ,如 被 图 住 的 红 点 ,重新 运行 算 。 ; 
法 就 会 得 到 截然 不 同 的 结果 。 这 个 结 

果 非 常 不 好 ,说 明 算 法 对 样本 的 细节 

非常 敏感 | 


图 10-13 图 中 的 红色 和 黑色 数据 点 
{ly ke 


分 别 来 自 两 个 正 态 过 程 。 在 左 图 中 ， 


最 远 令 算法 

当 我 们 使 用 公式 (80) 给 出 的 d;:(， ，*) 计 算 距 离 时 ,算法 4 又 可 以 称 为 “最 远 邻 算法 ”。 
一 旦 最 近 两 个 类 的 距离 超过 某 个 任意 给 定 的 阅 值 ,算法 就 自动 结束 ,这 个 算法 又 称 为 全 连接 算 
法 (complete-linkage algorithm) 。 最 远 邻 算法 不 会 促使 一 个 细 长 类 的 出 现 。 基 于 该 算法 的 应 
用 可 以 理解 为 一 种 图 生成 的 过 程 , 图 中 所 有 类 (集合 ) 的 内 部 节点 都 有 边 互 相连 接 。 用 图 论 的 
术语 来 说 ,每 个 类 都 构成 一 个 完全 子 图 。 两 个 类 之 间 的 距离 由 分 别 来 自 于 它们 而 且 距 离 最 远 
的 两 个 节点 决定 。 当 最 近 的 两 个 类 合并 时 ,在 图 中 就 将 所 有 分 别 来 自 这 两 个 类 的 点 对 用 边 连 
接 起 来 。 

如 果 我 们 定义 划分 的 半径 是 所 有 类 的 半径 中 最 大 的 那 一 个 ,那么 算法 的 每 次 迭代 都 可 理 
解 为 尽 可 能 小 地 增加 划分 的 半径 。 如 在 图 10-14 中 显示 的 那样 ,这 种 算法 对 那些 紧密 而 且 体 
积 大 致 一 样 的 类 是 非常 有 效 的 。 然 而 , 当 这 一 点 不 能 满足 时 ,比如 有 两 个 细 长 的 类 , 聚 类 结果 
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MRZLE., WRN MERA ,与 其 说 是 一 种 寻找 内 部 结构 的 过 程 , 不 如 说 是 一 种 强加 结 
构 的 过 程 。 


图 10-14 最 远 邻 算法 利用 来 自 不 同 
类 的 最 远 的 两 个 点 间距 离 作 为 聚 类 的 
准则 。 如 果 阔 值 设 得 过 大 ,所 有 的 数据 
点 就 会 被 归 人 同一 类 。 在 左 图 中 ,一 个 
较 大 的 dm: 使 得 算法 分 出 3 类 ;在 右 图 
中 , 较 小 的 dx: 使 得 算法 分 出 4 类 





折 中 

BOLIR SEE dmr (* ,*) 和 最 远 距 离 度量 4d;,,(*,，*) 代 表 了 类 与 类 之 间距 离 的 两 个 极端 。 
就 像 所 有 利用 最 大 值 或 最 小 值 的 算法 一 样 ,它们 对 某 些 噪声 和 孤立 点 都 非常 敏感 。 用 平均 值 
代替 它们 显然 可 以 改善 这 些 间 题 。 公 式 (81),(82) 中 的 dig (*，…) 和 dwn(，，*) 就 是 dmn, 
) 和 dj:《，，*) 的 自然 折 中 (compromise)。dis(*，*) 是 计算 最 简单 方便 的 一 个 ,因为 其 他 
度量 都 要 计算 nin, 次 距离 |x—x 。 但 是 ,dw(。,*) 的 好 处 是 当 距 离 x 一 x' | 被 相似 性 量 
取代 时 , 它 仍 能 发 挥 作用 ,而 均值 向 量 之 间 的 相似 性 可 能 很 难 ( 或 根本 就 无 法 ) 定 义 。 
10.9.3 逐步 优化 的 层次 聚 类 

前 面 我 们 曾经 提 到 ,如 果 通 过 合并 最 靠近 的 两 个 子 类 来 实现 聚 类 过 程 的 话 ,结果 就 体现 了 
一 种 最 小 方差 的 思想 。 但 是 , 当 任 意 选 取 一 种 距离 度量 来 表示 类 与 类 之 间 的 距离 时 ,我 们 似乎 
从 未 考虑 过 这 样 的 聚 类 结果 是 否 使 得 聚 类 准则 函数 取 极 值 。 实 际 上 ,层次 聚 类 算法 只 不 过 是 
运行 了 一 人 过 ,然后 给 出 一 些 聚 类 结果 而 已 。 不 过 ,只 要 稍 作 修 改 , 即 把 算法 4 的 第 3 行 换 成 一 
种 更 一 般 的 表示 ,就 可 以 得 到 一 个 可 以 极 值 化 准则 函数 的 “逐步 优化 的 层次 聚 类 ”算法 。 


算法 5 (逐步 优化 的 层次 聚 类 ) 





1 begin initialize c,c<-n, Di<-{x;} ,i=1,... 57 

2 do c<-c—1 

3 寻找 其 合并 类 ,将 准则 函数 改变 为 最 小 的 聚 类 ,例如 有 ,和 也 ， 
4 合并 D; MD; 

5 until c=c 

6 return c 个 聚 类 

7 end 


我 们 在 前 面 看 到 基于 dm: CO ,") 的 聚 类 方法 使 得 划分 半径 增长 最 慢 ,这 可 以 看 成 一 种 逐 
步 求 精 的 例子 。 为 一 个 简单 的 例子 就 是 基于 误差 平方 和 的 准则 函数 I. 的 方法 。 类似 在 
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10.8 三 中 所 作 的 分 析 ,我 们 发 现 找 到 的 两 个 类 , 如果 它们 的 合并 类 造成 I. 的 增加 最 少 ,就 要 


求 距离 


Nin j 





d(D,;,D;) = |m; — m; |i (83) 


ni tn, 
最 小 (习题 36)。 当 挑选 用 来 合并 的 聚 类 时 ,这 个 准则 除了 考虑 类 与 类 的 距离 ,还 考虑 了 类 中 
所 含 样 本 的 个 数 。 一 般 说 来 ,基于 d.(，,*) 的 算法 倾向 于 将 孤立 点 或 较 小 的 类 与 较 大 的 类 合 
并 。 昌 然 最 后 的 结果 不 一 定 能 最 小 化 J ,但 这 个 结果 可 以 向 进一步 的 迭代 优化 提供 非常 好 的 
初始 点 。 
10.9.4 层次 聚 类 和 导出 度量 
假定 我 们 不 能 给 数据 提供 度量 ,但 是 可 以 衡量 数据 集中 任意 号 个 样本 之 间 的 相 异 程度 
(dissimilarity) 6(x,X ) ,而 且 6(x,x ) 这 0, 等 号 当 且 仅 当 x==x 时 成 立 。 那 么 合并 聚 类 算法 还 
是 可 以 使 用 ,只 要 理解 两 个 最 近 的 聚 类 就 是 最 不 相 异 的 类 。 有 趣 的 是 ,如 果 定 义 两 个 聚 类 的 
“ 相 异 度 ” 为 
6min(Di, Dj) = min d(x, x) 


(84) 
WED; 
BY 
ômax(Di, D;) = max 8(x, x’) 
x j) ma ( (85) 


A e 
xéD; 


层次 聚 类 算法 就 可 以 对 给 定 的 个 样本 集 导 出 距离 函数 。 而 且 , 如 果 样 本 之 间 的 距离 进行 从 
大 到 小 的 排序 ,这 个 排序 不 会 因为 “ 相 异 度 ” 的 任何 单调 变换 而 改变 (习题 19) 。 

我 们 现在 可 以 定义 一 个 广义 的 “距离 ”d(x,x ) 为 :在 层次 聚 类 中 ,样本 x 和 x FORE 
一 类 时 所 对 应 的 最 低 的 层次 数 。 为 了 证 明 d(x,x ) 是 一 个 数学 上 合法 的 “距离 ”或 “度量 ”, 只 
需要 证 明 它 具有 如 下 4 个 性 质 。 即 对 所 有 的 向 量 x,x 和 x CRE: 

。 非 负 性 d(x,x’)>0 

。 自 反 性 d(x,x’)=0 当 且 仅 当 x= 一 x 时 成 立 

。 对 称 性 COx,x ) 一 dx ,x) 

。 -AREA dlx.x)+d(x'.x) d(x, x”) 

这 些 性 质 都 非常 容易 证 明 ,所 以 我 们 说 相 异 度 可 以 导出 度量 函数 。 对 非 相 似 性 还 有 下 面 

d(x, x") < max[d(x, x’), d(x, x] 任意 x (86) 


这 样 的 d(。,。) 称 为 * 超 度量"(ultrametric) (习题 33) 。 基 于 超度 量 的 准则 不 容易 陷 人 局 部 最 
小 的 困境 ,因为 聚 类 之 间 的 距离 排序 能 够 得 到 严格 地 保持 。 


“10.10 验证 问题 


到 目前 为 止 ,我 们 讨论 的 聚 类 算法 几乎 都 是 以 假定 类 别 数目 已 知 为 前 提 的 。 如 果 我 们 已 
经 从 一 个 已 标记 的 小 样本 集 获 得 了 类 别 数 目 , 或 者 是 正在 对 一 个 初始 类 别 数 目 已 知 而 又 在 组 
慢 变 化 的 模式 进行 聚 类 ,那么 这 将 是 一 个 十 分 合理 的 假设 。 然 而 ,如 果 我 们 正在 探究 一 个 未 知 
数据 集 的 内 部 结构 ,这 种 假设 就 非常 不 合理 了 。 因 此 , 聚 类 分 析 中 一 个 重要 的 环节 就 是 找到 数 
据 中 客观 存在 的 类 别 数 目 。 
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当 我 们 通过 优化 准则 函数 进行 聚 类 时 ,通常 是 重复 地 对 c=1,c=2,c=3 等 情况 进行 聚 类 
尝试 ,并 观察 准则 函数 值 如 何 随 。 变化 。 比 如 ,误差 平方 和 准则 J. 肯定 是 e 的 单调 递减 函数 。 
如 果 给 定 的 个 样本 真正 能 形成 < 个 稠密 而 且 分 得 很 开 的 类 ,我 们 就 会 发 现 J. 会 随 着 c 的 增 
加 迅速 减少 ,直到 c= 二 6, 然 后 下 降 速度 变 缓 ,直到 c 一 ”为 止 。 类 似 地 ,层次 聚 类 也 会 出 现 相同 
的 情况 ,尤其 在 树 图 中 更 为 明显 。 层 次 聚 类 通常 假定 ,在 相 邻 两 层 上 出 现 很 大 的 差异 ,预示 最 
佳 划分 已 经 找到 。 

寻找 类 别 数目 更 正规 的 方法 就 是 设计 某 种 能 检测 拟 合 程度 的 指标 ,使 得 它 能 表示 一 个 给 
定 的 < 类 划分 在 什么 程度 上 匹配 原始 数据 。 两 种 传统 的 拟 合 指标 是 x REMERAS 
夫 - 斯 米尔 诺 夫 统 计量 ,但 是 “ 维 数 灾难 ”问题 常常 迫使 我 们 寻求 更 简单 的 替代 方案 ICC). A 
为 我 们 期 望 在 c 十 1 类 的 划分 比 c 类 的 划分 能 够 更 好 地 表达 数据 的 内 部 结构 ,所 以 我 们 希望 对 
应 c 十 1 类 的 指标 比 对 应 c 类 的 指标 有 显著 的 改善 。 

接着 我 们 来 进行 假设 检验 ,判断 是 否 出 现 了 指标 改善 。 首 先 ,我 们 提出 零 假 设 (null 
hypothesis) , 即 数据 确实 形成 了 c 类 。 其 次 ,在 这 个 零 假 设 下 计算 J(c 十 1) 的 概率 密度 。 这 个 
密度 可 以 告诉 我 们 当 数 据 确实 是 “类 时 ,把 它 分 成 c 十 1 类 后 的 指标 是 怎样 分 布 的 。 在 作 判 定 
的 时 候 ,我 们 检查 观测 到 的 J(c 十 1), 如 果 它 出 现在 我 们 可 以 接受 的 概率 区 间 之 内 ,就 表示 零 
假设 是 可 以 接受 的 ,否则 说 明 c 十 1 类 的 划分 比 c 类 的 划分 更 合适 。 

但 是 要 计算 J(c 十 1) 的 概率 密度 是 很 困难 的 事情 ,我 们 只 能 粗略 地 估算 一 下 。 这 样 得 到 
的 结果 当然 不 能 令 人 满意 ,但 是 在 没有 得 到 更 好 的 验证 类 别 数 估计 的 合理 性 的 方法 之 前 ,粗略 
地 估算 总 比 没有 强 。 下 面 我 们 将 介绍 一 种 采用 简单 的 误差 平方 和 准则 的 近似 分 析 方法 ,这 与 
前 面 第 8 章 的 讨论 是 平行 的 。 

假设 一 个 含有 nn 个 样本 的 集合 D。 我 们 要 看 是 否 有 足够 的 理由 去 假设 数据 集 存 在 不 止 一 
个 聚 类 。 首 先 给 出 零 假 设 , 即 所 有 的 样本 都 来 自 于 同一 个 正 态 总 体 , 其 均值 是 p, HEE 
是 I, 

如 果 这 个 假设 是 成 立 的 ,那么 只 有 在 非常 偶然 的 情况 下 ,集合 D 会 形成 多 个 聚 类 ,在 这 种 
情况 下 对 应 的 误差 平方 和 的 减 小 也 是 不 明显 的 。 

误差 平方 和 J.(1) 是 个 随机 变量 ,因为 它 取 决 于 具体 的 样本 集合 

J) = > Ix — ml (87) 


xeD 
其 中 m 代表 所 有 数据 点 的 均值 。 在 零 假设 下 ,J,(1) 是 近似 正 态 分 布 的 ,并 以 nd’ 为 均值 ， 
Ondo 为 方差 (习题 40)。 现 在 假定 将 数据 分 成 D! MD. 两 类 以 达到 最 小 化 J.(2) 的 目标 ,其 中 


2 
Je(2) = >》 ix- ml | (88) 


i=] xe D; 


m RED: 中 样本 的 均值 。 根 据 零 假设 ,这 种 两 类 划分 是 假 的 ,但 它 还 是 使 得 J.(2) 比 J.(1) 
小 。 如 果 我 们 知道 了 J.(2) 的 分 布 ,那么 就 可 以 看 看 J DARREL ANIE PEERI 
弃 零 假设 。 由 于 缺少 最 优 划分 的 解析 解 , 也 就 不 能 得 到 分 布 的 解析 解 。 但 是 如 果 用 经 过 数据 
集中 心 的 一 个 超 平面 将 数据 一 分 为 二 ,就 可 以 得 到 一 个 次 优 解 用 来 近似 最 优 解 。 当 nn 很 大 时 ， 
这 样 划分 所 对 应 的 误差 平方 和 具有 均值 nd — 2/0)? 和 方差 2n(d—8/7" Jot , 


O ”自然 可 以 假设 一 种 不 同 的 聚 类 形式 ,但 在 缺少 更 多 信息 的 情况 下 ,可 证 明正 态 总 体 对 于 我 们 前 面 已 讨论 的 基础 是 
合理 的 。 
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这 个 结果 显然 与 TDK J.(1) 小 的 观点 相 一 致 ,因为 J.(2) 的 均值 n(d—2/mo 确实 比 
J.(1) 的 均值 nde 小 。 为 了 推翻 零 假 设 ,观测 到 的 J,(2) 应 该 更 小 。 其 至 可 以 假定 J.(2) 也 是 
近似 正 态 分 布 的 ,并 用 

n ] 

5 og 2a ml = Te) (89) 
来 估计 ,基于 这 样 的 近似 来 得 到 J.(2) 的 临界 值 。 最 终结 论 表 述 如 下 (习题 41) : 零 假设 按照 
p% 的 显著 性 水 平 锌 推翻 ,只 要 满足 


— 2 
/OO 二 — g |2 8rd) S/d) (90) 
Jell) rd nd 





HP a 由 


] 
p= 100 f ae? du = 50(1 一 erf(a //2)) (91) 
Vv 27 


决定 ,erf(*) 是 标准 误差 函数 。 这 种 方法 向 我 们 提供 了 一 种 手段 判断 对 茶 类 分 裂 的 全 理性。 对 
一 个 < - 聚 类 分 类 问题 ,可 以 用 同样 的 方法 对 所 有 类 进行 处 理 。 


“10.11 在 线 聚 类 


我 们 讨论 了 许多 聚 类 方法 ,但 它们 都 或 者 明确 地 或 者 隐 含 地 优化 一 个 全 局 准则 哺 数 ,同时 
假定 (或 者 已 知 ) 类 别 数目 。 从 这 些 方法 推导 出 来 的 无 监督 学 习 公 式 常 党 比较 脆弱 ,而 且 并 不 
总 是 产生 好 的 或 期 望 的 结果 。 聚 类 结果 也 经 常会 对 准则 函数 的 小 改动 非常 敏感 ,这 些 都 离 我 
们 的 期 望 其 远 。 特 别 , 当 这 些 算 法 用 于 在 线 (on-line) 学 习 时 ,偶尔 会 遇 到 聚 类 结构 不 稳定 ,在 
不 停 地 波动 和 漂移 。 当 然 , 一 个 系统 要 能 从 新 出 现 的 数据 中 学 到 点 什么 ,就 必须 是 自 适应 的 ， 
具有 一 定 的 “可 塑性 ”(plasticity), 以 允许 产生 新 的 类 别 ( 如 果 从 数据 本 身 确实 可 以 学 到 些 什么 
的 话 ) 。 另 一 方面 ,如 果 数 据 内 部 结构 不 稳定 而 且 最 近 一 段 时 间 获 得 的 信息 会 造成 较 大 的 结构 
重组 ,那么 就 比较 复杂 ,因而 就 不 能 把 问题 只 归 因 于 特定 的 聚 类 描述 。 这 个 问题 被 称 为 稳定 性 
/可 塑性 两 难 问题 人 stability/yplasticity dilemma). 

产生 这 个 问题 的 原因 之 一 就 是 聚 类 算法 使 用 了 全 局 准则 ,每 个 新 到 的 样本 都 可 能 影 啊 一 
个 聚 类 中 心 的 位 置 , 不 管 这 个 样本 离 中 心 有 多 还 。 于 是 人 们 提出 了 称 为 “竞争 学 习 ”(competi- 
tive learning) 的 算法 ,只 对 与 新 到 样本 最 相似 的 一 个 聚 类 中 心 进行 调整 。 因 此 与 该 样本 无 关 
的 其 他 类 的 性 质 得 到 了 保留 。 竞 争 学 习 是 在 神经 网 络 的 研究 中 提出 的 ,我 们 也 用 神经 网 络 的 
术语 去 解释 这 个 算法 。 下 面 从 一 个 简单 的 例子 开始 , 它 可 以 被 看 作 是 串 行 上 -均值 聚 类 算法 的 
一 个 修正 。 

竞争 学 习 算法 以 神经 网 络 学 习 规 则 (第 6 章 ) 为 基础 ,与 判定 导向 的 k- 均 值 诊 类 (算法 1) 
有 着 内 在 的 联系 。 竞 争 学 习 和 判定 导向 都 是 先 初 始 化 类 别 数目 和 聚 类 中 心 , 并 在 聚 类 过 程 中 
按照 某 种 规则 暂时 将 样本 分 到 某 一 类 。 但 它们 在 更 新 聚 类 中 心 时 表现 出 不 同 的 方式 :对 判定 
导向 的 算法 而 言 , 每 个 类 中 心 被 更 新 为 当前 类 中 所 有 数据 点 的 均值 ;而 在 竞争 学 习 算 法 中 ,只 
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有 与 输入 模式 最 相似 的 类 别 的 中 心得 到 了 更 新 。 结 果 是 ,在 竞争 学 习 中 , 离 输入 模式 很 远 的 类 
就 不 会 被 改变 (但 请 看 10. 11.2 节 )。 这 有 时 被 看 成 一 种 不 错 的 性 质 , 不 过 缺点 是 它 不 再 是 简 
单 地 只 需 最 小 化 一 个 全 局 代价 或 准则 函数 。 
现在 来 考虑 一 个 具体 的 竞争 学 习 的 例子 。 我 们 马上 会 看 到 下 面 这 样 处 理 的 好 处 ;每 个 输 
人 的 d 维 模 式 都 额外 增 广 一 维 (x, = 二 1) 并 被 归 一 化 到 x | = 二 1; 所 有 的 模式 现在 都 在 一 个 
d 十 1 维 的 单位 超 球面 上 。 图 10-15 是 用 神经 网 络 的 方式 去 实现 竞争 学 习 算法 。 每 个 输入 单 
元 都 同 c 个 输出 单元 相连 接 ,就 像 第 5 章 中 提 到 的 感知 网 络 一 样 。 
图 10-15 ”两 层 神经 网 络 结构 含有 d 十 1 个 输入 单元 和 CH 
输出 单元 (类 )。 每 个 增 广 的 输入 模式 都 被 归 一 化 到 单位 长 
度 ( 即 xl ==1), 输 出 单元 的 权 值 也 经 过 同样 的 归 一 化 。 当 
新 的 模式 到 来 时 ,每 个 输出 单元 都 计算 自己 受到 的 净 激 活 
(net activation) net, 二 Ww;xX; 只 有 受到 激励 最 大 的 输出 单元 才 
去 更 新 自己 的 权 值 (图 中 的 红 第 头 表 示 可 以 通过 竞争 机 制 拖 gy 
制 其 他 输出 单元 的 活动 ;。 多 数 活动 单元 的 权 值 被 修改 , 变 
得 更 像 刚才 输入 的 模式 
c 个 聚 类 中 心 的 每 一 个 都 由 归 一 化 的 随机 向 量 初始 化 . 即 有 wj |] = 二 1.;j==1,....c。 常 规 
的 做 法 是 用 从 数据 集中 随机 选取 的 c 个 点 来 初始 化 聚 类 中 心 . 但 这 不 是 必须 的 。 当 一 个 新 的 
模式 到 来 时 ,每 个 类 单元 (输出 单元 ) 都 计算 自己 的 净 激 活 值 net; =w'x。 只 有 受到 最 大 响应 的 
类 (对 应 权 疝 量 与 新 到 的 模式 最 相似 ) 才 允许 更 新 权 值 。 如 果 需 要 ,也 可 以 用 一 个 “ 胜 者 全 取 ” 
网 络 去 实现 这 个 算法 :每 个 类 单元 7 都 以 正比 于 net; 的 程度 去 抑制 其 他 单元 ,就 如 在 图 10-15 
中 的 红色 箭头 所 示 。 这 样 ,输出 单元 互相 竞争 ,具有 最 大 净 激 活 值 的 单元 对 其 他 单元 互相 抑 
制 ,竞争 学 习 算 法 也 因此 而 得 名 。 
在 前 面 说 过 , 权 向 量 被 更 新 后 ,应 该 更 像 输 入 的 模式 , 即 有 
w(t + 1) = w(t) 4+ nx (92) 
其 中 7 代表 学 习 速 度 。 接 着 权 向 量 要 被 归 一 化 为 单位 向 量 。 这 个 归 一 化 保证 净 激 活 net, = 
wx 只 与 向 量 w 和 x 的 夹 角 有 关系 ,而 和 w, 的 长 度 无 关 。 如 果 没 有 这 个 归 一 化 ,w, 就 有 可 能 
一 直 增 加 下 去 ,并 始终 给 出 最 大 值 net;。 图 10-16 显示 3 个 类 中 心 的 更 新 轨迹 。 如 果 用 表示 
算法 的 停止 准则 , 则 算法 可 表示 为 : 


RA 








算法 6 (竞争 学 习 ) 
l begin initialize 7,n,c, k, Wi W25% W, 
Xi 一 {1,X;) ,i 二 1,…,n( 增 加 所 有 模式 ) 
xex; || x, ,i 二 1,…,n( 归 一 化 所 有 模式 ) 
do 随机 选取 一 个 x 

jarg max wi XxX( 分 类 x) 

wj 一 Wj 十 WX( 权 值 更 新 ) 


DO An A O 


ALEPF THRE m ia 


7 wi<—w,/ ll w || 权 值 归 一 化 ) 
8 until 在 《次 重复 中 w 无 显著 改变 

9 return WwWi，w2，. ,. .，W. 

10 end 


图 10-16 ”所 有 的 二 维 模式 经 过 增 广 和 归 一 化 后 都 落 在 三 维 球面 上 上。 同样 ,3 
个 聚 类 中 心 的 权 值 也 被 归 一 化 。 红 色 的 曲线 表示 权 向 量 的 轨迹 ,3 条 轨迹 分 
IA 3 个 红 点 出 发 并 在 3 个 聚 类 中 心 截 目 
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算法 6 的 缺点 是 它 无 法 保证 自动 停止 ,即使 数据 集合 是 有 限 的 非 病 态 的 。 比 如 ,第 8 步 的 
停止 条 件 可 能 永远 也 不 成 立 , 权 向 量 会 不 停 地 改变 下 去 。 一 个 简单 的 想法 是 让 第 6 步 中 的 学 
习 速 度 7 随时 间 逐 步 减 小 ,如 y(1) = 二 y(0)a',0 过 a 二 1,t 是 迭代 次 数 。 如 果 初 始 的 聚 类 中 心 能 
很 好 地 代表 全 部 数据 集 ,学 习 速 度 衰减 又 比较 适中 ,我 们 就 可 以 得 到 很 好 的 结果 。 但 是 ,如 果 
后 来 出 现 了 一 种 新 的 模式 , 它 就 不 可 能 被 学 习 , 因 为 7 已 经 很 小 了 。 同 样 道理 ,这 种 允许 学 习 
速度 衰减 的 技巧 不 适用 那些 会 逐渐 变化 的 数据 集 。 


10.11.1 聚 类 数目 未 知 


我 们 提 过 关于 未 知 聚 类 中 心 数 c 的 问题 。 当 未知 时 ,有 两 种 途径 去 处 理 。 第 一 种 途径 ， 
符 试 许多 种 可 能 的 c, 并 比较 不 同 < 下 的 准则 函数 的 值 。 如 果 有 某 个 准则 值 显 著 地 优 于 其 他 的 
fA ,那么 它 对 应 的 是 可 以 接受 的 。 第 二 种 途径 :设置 一 个 阔 值 用 来 控制 新 聚 类 别 的 创建 。 后 
一 种 途径 对 在 线 学 习 的 应 用 来 说 更 合适 。 不 足 之 处 就 是 它 过 分 也 依赖 于 数据 出 现 的 顺序 。 

像 上 -均值 和 层次 聚 类 一 样 的 算法 经 常 在 聚 类 开始 前 就 获得 了 全 部 数据 即 离线 的 ) ， 但 时 
常会 有 些 对 “在 线 聚 类 ”的 需求 。 比 如 ， 存 储 空 间 不 够 记录 所 有 的 数据 模式 ， 或 者 系统 对 时 
间 要 求 很 高 ， 以 至 于 数据 还 没有 全 部 出 现 算法 就 必须 开始 。 我 们 前 面 讨 论 的 用 图 论 进 行 育 类 
的 方法 也 可 以 在 线 使 用 ， 只 要 将 每 个 新 到 的 模式 根据 某 种 相似 性 量 连接 到 一 个 现 有 的 聚 类 。 

为 了 得 到 许多 算法 (比如 -均值 算法 ) 的 在 线 学 习 版 本 ,我 们 要 更 小 心 些 。 在 各 种 条 件 的 
限制 下 ,一般 说 来 最 合理 的 思路 就 是 用 聚 类 中 心 (例如 中 值 ) 来 代表 该 类 ,并 仅仅 根据 类 中 心 的 
当前 值 和 新 到 的 模式 来 更 新 自己 。 

假设 当前 已 有 < 个 聚 类 中 心 。 它 们 可 能 最 初 被 置 随意 的 位 置 ,或 是 对 应 于 最 先 到 来 的 < 
个 模式 的 位 置 ,也 可 能 是 在 任意 多 个 模式 出 现 后 的 当前 态 。 有 一 个 最 简单 的 通用 法 称 为 lead- 
er-follower 聚 类 (领导 者 -追随 者 聚 类 ) 算 法 , 即 当 一 个 新 模式 到 来 时 ,只 改变 最 接近 新 模式 的 
聚 类 中 心 , 并 且 聚 类 中 心 改变 成 更 像 新 模式 ,如 图 10-17 所 示 。 
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图 10-17 在 leader-follower 

RAH , K HB ARE OD $ 1 
与 随机 提供 样本 点 的 顺序 有 .- a 
关 。 上 面 的 3 个 模拟 采用 同样 ti a É 

的 学 习 率 q E O EER H f . 
次 数 (50) ,但 样本 是 以 随机 顺 re : 

序 提供 的 。 注 意 左 边 形成 3 个 as ck 
聚 类 ,而 中 间 和 右边 的 两 图 都 

RAKE 


LE w 表示 第 i 类 的 当前 聚 类 中 心 ,7 表 示 学 习 速 度 ,2 代表 阔 值 ,于 是 我 们 定义 基本 leader 
follower 聚 类 算法 如 下 ， 


算法 7 (基本 leader-follower 聚 类 算法 ) 


1 begin initialize 7,0 


Z wi «x 

3 do 接收 新 x 

4 jarg min | x—w, || (FR ai RA) 
5 if || x—w, || <8 

6 then wi < 一 Wi + 7x 

7 else 加 新 的 w<x 

8 w<w/ || w || ( 归 一 化 权 值 ) 

9 until 无 其 他 模式 

10 return Wi , W2 ,*** 

11 end 


算法 中 的 闪 值 8 隐 式 地 决定 最 后 类 别 的 数量 。 当 它 是 一 个 大 阅 值 时 ,得 出 的 聚 类 个 数 很 
少 , 而 体积 很 大 。 当 它 较 小 时 , 则 育 类 个 数 很 多 ,但 体积 很 小 。 当 我 们 只 有 数据 本 身 , 而 没有 更 
多 的 信息 时 ,这 个 阐 值 就 很 难 确定 。 应 该 注意 到 ,算法 7 并 没有 涉及 到 如 何 减 少 类 别 的 数目 这 
个 问题 , 它 甚 至 连 合 并 可 能 非常 相似 的 两 个 类 的 步骤 都 没有 。 

在 进一步 讨论 leader-follower 算法 的 更 多 性 质 之 前 ,首先 研究 基于 它 的 一 个 非常 著名 的 
神经 网 络 算法 。 
10.11.2 自 适 应 共振 网 

leader-follower 算法 对 设计 一 种 称 为 自 适应 共振 理论 (adaptive resonance theory, ART) 
的 自 组 织 神经 网 络 具 有 非常 重要 的 作用 。 这 个 网 络 主要 是 用 来 模拟 生物 神经 网 络 认 识 未 知 模 
式 并 在 将 来 用 于 回想 。 如 果 这 些 未 知 模式 中 的 一 个 可 以 归 入 一 个 新 的 类 别 ,那么 ART 的 一 
个 目标 就 是 保证 即使 男 外 有 个 稍 有 不 同 的 模式 出 现 并 要 求 调整 这 个 新 的 类 中 心 ,这 个 类 中 心 
还 是 会 稳定 地 保持 它 的 基本 性 质 (图 10-18)。 另 一 个 目标 就 是 表明 “期 望 ”将 怎样 影响 网 络 的 
啊 应 。 这 个 目标 导致 网 络 中 出 现 反 馈 连接 和 有 趣 的 动态 行为 。 
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图 10-18 ”在 这 种 简单 的 情况 下 可 能 在 竞争 学 习 过 程 中 出 现 不 稳定 和 重新 编码 (recoding) ,图 中 有 
两 个 模式 和 两 个 聚 类 中 心 。 模 式 x 和 xz 被 送 到 图 10-15 的 网 络 中 分 类 。 在 :==0 时 ,wi Sx RE 
近 , 所 以 xi 属于 类 wi ;同样 ,xz 应 该 属于 类 w;。 左 图 表示 了 这 种 分 类 。 其 次 ,假设 模式 x 连续 出 
现 多 次 ,根据 竞争 学 习 更 新 权 向 量 的 方法 ,wi 会 越 来 越 靠近 x 。 而 此 时 x 与 w 最 接近 ,所 以 再 次 
出 现 的 xs 被 分 人 wi 类 。 这 令 我 们 非常 吃惊 ,因为 x; 没有 被 用 来 更 新 权 向 量 ,而 它 的 隶属 关系 却 
发 生 了 变化 , 即 被 重新 编码 了 。 理 论 上 ,这 种 重新 编码 的 现象 会 出 现 很 多 次 ,只 要 模式 按 某 种 顺序 
出 现 


自 适应 共振 理论 可 以 用 在 很 多 不 同 的 网 络 结 构 上 。 为 简单 起 见 , 只 讨论 在 图 10-19 中 所 
看 到 的 两 层 结构 模型 。 我 们 只 概要 地 解释 模型 的 结构 和 行为 ,把 细节 都 略 去 了 。 

就 如 图 10-19 中 所 表示 的 ,网 络 包含 了 一 个 输入 层 ,通过 自 底 向 上 的 权 向 量 与 聚 类 层 中 的 
单元 相连 ,就 像 竞争 学 习 用 到 的 网 络 一 样 。 而 且 ,ART 网 络 还 有 自 顶 向 下 的 权 向 量 , 用 w 表 
示 在 图 中 。 这 些 权 向 量 将 “点 火 信 号 ”(priming signal) 回 传 给 输入 层 的 单元 。 网 络 的 底层 单 
元 接收 3 种 输入 :(a) 输 入 模式 x;(b) 从 顶层 传 来 的 反馈 信号 ;(c) 来 自 增 益 控 制 单元 的 时 变 偏 
置信 号 。 权 向 量 w 自 底 向 上 直接 指向 第 i 个 输出 单元 ,而 且 都 被 归 一 化 成 单位 长 度 。 与 
leader-follower 算法 类 似 , 自 适应 共振 法 的 类 别 数量 也 是 动态 增加 的 ,所 以 在 网 络 项 层 的 单元 
数量 c 是 可 变 的 。 

图 10-19 自 适 应 共振 网 络 包 含 

输入 单元 和 聚 类 单元 ,就 像 竞 争 学 

习 用 到 的 网 络 一 样 。 但 是 ,输入 层 RA 

和 类 别 层 完全 被 从 下 至 上 和 自 顶 自 底 向 上 和 

向 下 的 权 值 连 起 来 。 身 底 向 上 的 自 顶 向 下 的 权 值 

AAE w 代表 学 到 的 类 中 心 ,而 自 po 

顶 向 下 的 权 向 量 w 代表 期 望 出 现 

的 模式 。 如 果 输 入 模式 和 类 中 心 

匹配 得 很 差 ( 匹 配 度 由 用 户 指定 的 je 

参数 6 表示 ) ,那么 活动 的 类 单元 就 

会 受到 重 置 信号 的 抑制 ,并 且 一 个 

新 的 类 中 心 会 产生 出 来 。 


ART 网 络 正 常 工作 时 ,如 果 向 网 络 底层 输入 的 x 与 以 前 遇 到 过 的 某 个 模式 接近 ,那么 底 
层 就 会 将 x“ 净化 "后 再 输出 。 更 确切 地 说 ,如 果 输 入 x 与 某 个 类 中 心 w; 接近 ,那么 底层 的 输出 
y 理论 上 就 是 w 本 身 。 底 层 的 输出 信号 向 类 别 中 心 的 偏 移 是 由 两 个 原因 造成 的 :(a) 从 高 层 
来 的 反馈 ;(b) 增 益 控 制 信和 号。 如 果 既 无 反馈 又 无 增益 控制 ,底层 的 输出 就 仅仅 是 输入 x 的 复 
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制 。 增 益 控 制 系统 是 一 种 保持 网 络 底层 活跃 的 机 制 , 即 保证 | y || 是 常数 。 反 馈 信 号 完全 来 自 


于 顶层 最 活跃 的 类 单元 ,并 通过 权 向 量 w BARE. 

向 上 传递 的 权 向 量 w 代表 类 中 心 的 长 期 记忆 。 顶 层 采 取 “ 胜 者 全 取 ” 的 芝 争 机 制 , 所 以 对 
应 x'w; 最 大 的 单元 i 会 有 最 强 的 激励 响应 。 用 聚 类 的 术语 来 表达 ,响应 最 强 的 输出 单元 指出 
与 净化 输出 y 最 接近 的 聚 类 中 心 wi。 

显然 ,对 所 有 具有 同样 长 度 的 y, 最 能 激励 输出 单元 i 的 输入 向 量 是 与 w; 成 比例 的 ,就 像 
标准 的 竞争 学 习 网 络 中 讨论 过 的 那样 。 从 这 个 输出 单元 延伸 出 自 顶 向 下 的 权 向 量 w; ,该 向 量 
给 出 了 期 望 ,表示 第 i 类 最 希望 从 底层 看 到 的 输出 响应 。 当 模式 x 第 一 次 出 现时 ,底层 输出 y 
就 是 xx 本身, 这 个 输出 不 一 定 与 最 活跃 的 类 单元 的 类 中 心 很 靠近 。 但 是 ,网 络 利用 反馈 方式 上 自 
顶 向 下 对 底层 提供 额外 的 输入 。 经 过 一 段 时间 的 延迟 和 增益 控制 的 调整 ,底层 单元 的 啊 应 变 
得 更 接近 w,, 反 过 来 更 强烈 地 激励 顶层 单元 ,顶层 单元 再 反馈 给 底层 单元 ,如 此 下 去 。 用 
ART 的 术语 来 表达 ,这 种 激励 反馈 的 过 程 称 为 “共振 ”尽管 这 种 行为 与 激励 振荡 如 的 物理 共 
振 原 理 没 有 关系 。 

那么 这 个 网 络 实际 在 于 什么 呢 ? 一 种 可 能 性 是 网 络 最 后 趋 于 某 个 稳定 的 状态 ,此 时 有 (ay) 
输入 x 与 w; 接近 ,(b) 底 层 单元 的 输出 与 w; 非常 接近 ,以 及 (c) 顶 层 单元 中 第 i 个 响应 最 强烈 。 
当 输 入 模式 确实 非常 接近 w 时 ,这 正 是 我 们 所 需要 的 。 像 基本 leader-follower 算法 一 样 ,w， 
的 值 会 作 些 稍微 的 调整 ,使 其 离 输入 模式 更 近 一 点 。 

但 是 , 另 一 种 可 能 性 是 反馈 过 于 强 , 即 使 输入 向 量 x 与 所 有 的 类 中 心 都 隔 得 很 远 , 某 个 输 
出 单元 还 是 会 抓 住 控制 权 并 始终 输出 w;。 我 们 不 希望 发 生 这 种 情况 。 在 leader-follower 算法 
中 ,这 种 情况 对 应 于 产生 一 个 新 的 类 中 心 。 用 ART 的 术语 来 表达 ,x 与 w 的 巨大 差距 是 由 一 
个 称 为 取向 子 系统 (orienting subsystem) WMH. WH xy<p, 该 子 系统 就 会 产生 一 个 新 的 类 
中 心 , 并 初始 化 为 x。 

这 里 p 是 个 用 户 定义 的 参数 , 称 为 警戒 值 。 警 戒 值 的 功能 就 像 leader-follower 算法 中 国 
值 9 的 功能 一 样 。 如 果 警 戒 值 低 , 即 使 输入 模式 和 学 习 到 的 最 接近 的 聚 类 的 匹配 很 差 , 网 络 也 
会 接受 它 。 如 果 警 戒 值 高 ,网 络 就 会 频繁 产生 新 的 类 中 心 。 在 ART 网 络 中 ,新 类 的 产生 是 由 
“ 重 置 波 ”(reset wave) 实 现 的 。 对 同样 的 数据 集合 ,小 的 警戒 值 对 应 少 的 类 别 数目 ,大 的 警戒 
值 对 应 多 的 类 别 数 目 。 

上 面 关 于 自 适 应 共振 的 介绍 是 不 完整 的 ,在 进行 具体 的 网 络 仿真 前 ,还 需要 更 细致 地 了 
解 。 在 很 多 方面 ,我 们 可 以 将 ART 看 成 leader-follower 聚 类 算法 的 神经 网 络 实现 。 但 是 ,在 
具体 的 网 络 设计 时 ,要 作 某 些 有 意义 的 推广 ,比如 使 用 多 层 网 络 结构 并 人 允许 用 高 层 或 “ 跨 模 态 ” 
预期 值 去 影响 底层 的 单元 的 激活 ,在 参考 文献 中 列 出 了 有 关 的 文献 。 
10.11.3 基于 评判 的 学 习 

本 书 大 部 分 篇 幅 都 是 讨论 有 监督 学 习 问 题 的。 在 有 监督 学 习 中 ,教师 会 给 每 个 训练 样本 
标 上 类 别 标记 。 本 章 关心 的 是 无 监督 学 习 问 题 , 其 中 没有 任何 标记 信息 可 用 。 介 于 有 标记 和 
无 标记 之 间 还 有 一 种 中 间 状 态 , 即 虽然 没有 标记 信息 ,教师 仍 可 以 评价 分 类 器 对 任何 样本 的 分 
类 结果 是 否 正确 。 因 此 ,教师 在 学 习 时 扮演 的 是 系统 评判 (critic) 的 角色 9 。 

要 把 评判 机 制 引 入 竞争 学 习 和 自 适 应 共振 网 络 是 非常 简单 的 。 比 如 , 当 某 个 样本 的 分 类 
结果 被 评判 为 正确 时 ,那么 就 允许 更 新 权 向 量 ,否则 就 拒绝 更 新 。 | 


O PAE :基于 评判 的 学 习 (learning with critic) ,就 是 强化 学 习 (reinforcement learning) (或 再 励 学 习 )。 
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"10.12 图 论 方法 

对 正 态 混合 分 布 和 最 小 方差 划分 的 数学 认识 让 我 们 习惯 于 将 聚 类 看 成 是 由 一 个 一 个 孤立 的 
点 组 成 的 。 但 是 图 论 中 用 到 的 语言 和 概念 允许 我 们 考虑 更 加 复杂 的 结构 。 可 惜 ,还 不 存在 一 个 
统一 的 方法 去 处 理 聚 类 问题 ,就 像 处 理 图 论 问题 一 样 。 因 此 如 何 有 效 地 利用 图 论 思 想 于 聚 类 问 
题 在 很 大 程度 上 仍 属 于 技艺 的 范畴 。 读 者 如 果 想 去 探索 这 种 可 能 性 ,就 必须 具备 创造 性 。 

如 玉 重 新 考虑 那个 产生 图 10-7 的 简单 过 程 ,就 可 以 大 致 了 解 图 论 的 方法 。 首 先是 选择 了 
一 个 距离 国 值 d ,如 果 两 个 节点 的 距离 小 于 这 个 靖 值 , 就 将 它们 放 和 同一 类 。 这 个 思想 可 以 
推 上 应 用 到 任意 的 相似 性 测度 上 。 假 设 我 们 挑选 了 阔 值 ,并 判定 当 s(x,.x)) > sy 时 45 x; 
相似 。 这 样 就 定义 了 一 个 n X n 相似 性 矩阵 S=[s; ] ,每 个 元 素 为 


这 个 矩阵 还 能 引出 一 个 相似 性 图 ,图 中 节点 代表 数据 点 , 当 5; = 1 时 就 用 一 条 边 将 节点 7 和 j 


连接 起 来 。 

单 连接 算法 和 修正 的 全 连接 算法 都 可 以 非常 容易 用 图 表示 出 来 。 对 单 连接 算法 来 说 , 样 
本 x 和 x 属于 同一 类 当 且 仅 当 存在 一 条 链 x,xi ,xz,... ,Xi ,x , 链 中 任意 相 邻 的 两 个 节点 是 相 
似 的 。 因 此 聚 类 结果 对 应 相似 图 的 所 有 的 连通 子 集 。 对 全 连接 算法 来 说 ,同一 类 中 的 所 有 样 
本 必须 互相 相似 ,而 且 不 允许 出 现 一 个 样本 属于 多 个 类 别 的 现象 。 如 果 我 们 将 后 一 个 限制 条 
件 扔 挥 ,那么 聚 类 结果 就 对 应 相似 性 图 的 最 大 完全 子 图 集 。 如 果 一 个 子 图 是 完全 的 ( 即 任何 两 
AZM BAAWD ,而 且 不 存在 另 一 个 完全 子 图 可 以 包含 它 , 那 么 这 个 子 图 称 为 是 最 大 完全 子 
Al. (一 般 来 说 ,全 连接 算法 的 分 类 结果 可 以 在 最 大 完全 子 图 集 内 找到 ,但 是 如 果 不 知道 相似 
性 的 话 ,就 无 法 确定 结果 。) 

我 们 在 前 面 说 过 最 近邻 法 可 以 看 成 是 寻找 最 小 生成 树 的 过 程 。 反 过 来 ,如 果 给 出 了 一 个 
最 小 生成 树 ,就 可 以 根据 它 得 到 最 近邻 法 的 聚 类 结果 。 将 生成 树 的 最 长 的 一 条 边 去 掉 就 把 数 
据 分 为 两 类 ,去掉 第 二 长 的 边 ,数据 就 分 为 3 类 ,可 以 如 此 继续 下 去 。 这 就 导出 了 基于 分 裂 的 
层次 聚 类 方法 ,而 且 还 有 很 多 种 其 他 的 分 裂 方法 。 比 如 ,在 去 掉 一 条 边 时 ,我们 可 以 先 比 较 该 
边 和 其 他 连接 在 同一 节点 的 边 的 长 度 。 称 一 条 边 是 不 相 容 的 ,如 果 它 的 长 度 7 比 交 于 同一 节 
点 的 所 有 边 的 长 度 平均 值 ! 还 要 长 很 多 。 图 10-20 表示 将 最 小 生成 树 上 所 有 满足 27 的 边 
去 挥 就 可 以 得 到 一 种 聚 类 结果 。 这 种 方法 对 局 部 条 件 比 较 敏感 ,导致 去 掉 两 个 最 长 边 所 获得 


的 结果 很 不 一 样 。 








图 10-20 去掉 不 相 容 边 ( 比 所 有 汇 于 同一 节点 的 边 的 平均 长 度 还 长 很 多 的 边 ) 就 可 以 产生 自然 的 
聚 类 结果 。 原 始 数 据点 显示 在 左 图 中 , 它 的 最 小 生成 树 在 中 间 图 中 。 在 大 部 分 节点 上 , 汇 于 该 点 的 
边 的 长 度 都 比较 平均 。 两 个 红色 节点 是 例外 , 汇 于 它们 的 边 的 长 度 相 差 很 大 。 当 两 个 不 相 容 边 被 
去 挥 后 ,就 在 右 图 中 得 到 了 3 类 数据 
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当 数 据点 排 成 一 条 长 链 时 ,最 小 生成 树 形成 了 一 个 自然 的 骨架 。 如 果 定 义 “ 直 径路 径 ” 为 
树 中 最 长 的 一 条 路 径 , 那 么 不 在 这 条 路 径 上 的 点 很 少 而 且 到 路 径 的 距离 在 平均 上 是 非常 短 的 。 
相反 ,对 数据 点 形成 一 个 大 而 均匀 的 云 团 时 ,最 小 生成 树 的 直径 路 径 就 不 明显 ,而 是 存在 几 条 
与 直径 路 经 长 度 都 很 相近 的 路 经 ,因此 不 在 具 径 路 线 上 点 的 数量 是 十 分 可 观 的 。 数 据点 的 微 
小 波动 虽然 会 造成 最 小 生成 树 的 大 改动 ,但 对 下 面 提 到 的 统计 量 影 响 很 小 。 

一 个 有 用 的 统计 量 就 是 树 上 各 边 的 长 度 分 布 。 图 10-21 中 显示 了 两 个 密集 的 类 被 一 些 稀疏 
分 布 的 点 所 包围 。 统 计 最 小 生成 树 的 边 长 分 布 会 发 现 有 两 个 明显 的 类 别 , 而 且 很 容易 用 最 小 方 
差 方 法 去 分 开 。 把 所 有 属于 边 较 长 那 一 类 的 边 去 掉 , 就 可 以 得 到 两 个 密集 的 类 。 虽 然 更 复杂 的 
结构 不 能 这 样 简单 处 理 , 但 图 论 方法 的 灵活 性 还 是 表明 它 可 以 适用 很 多 不 同 的 聚 类 要 求 。 

图 10-21 最 小 生成 树 显 示 在 左上 | — a —— | 

图 中 ;在 左下 直方 图 中 清楚 地 显示 . . 

出 双 峰 的 边 长 分 布 。 如 果 删 除 全 : oc a . ar 

部 中 间或 高 长 度 的 链接 (红色 ,就 本 gt | . - = a, 

显现 出 两 个 自然 的 聚 类 ( 右 下 图 ) a a la 1 和 « 




















长 度 
10.13 成 分 分 析 


成 分 分 析 是 用 来 在 数据 中 寻找 “恰当 ”的 特征 的 无 监督 方法 。 我 们 将 要 讨论 几 种 最 主要 的 方 
法 ,它们 分 别 有 不 同 的 月 标 。 我 们 在 第 3 章 看 到 , 主 成 分 分 析 (PCA) 的 目标 是 在 低 维 子 空 间 去 表 
示 高 维 数据 ,使 得 在 误差 平方 和 的 意义 下 低 维 表示 能 够 最 好 地 描述 原始 数据 。 非 线性 成 分 分 析 
(NLCA) 通 常 以 神经 网 络 的 形式 实现 ,是 PCA 的 直接 推广 。 在 独立 成 分 分 析 (ICA) 中 ,我 们 寻找 
特征 空间 中 的 一 些 方 向 ,使 得 能 够 显示 原始 信号 的 独立 性 ,这 个 方法 对 区 分 混合 了 不 同 来 源 的 信 
号 特别 有 用 。 
10.13.1 主 成 分 分 析 

出 于 完整 性 的 考虑 ,这 里 我 们 重 述 第 3 章 介 绍 过 的 主 成 分 分 析 或 Karhunen-Loéve(K-L) 
变换 的 基本 方法 。 首 先 , 计 算出 d 维 均值 向 量 & 和 大 小 为 d Xd 的 协 方差 矩阵 HK. HR 
出 互 的 本 征 值 和 本 征 向 量 , 每 个 本 征 癌 量 。 都 对 应 一 个 本 征 值 4;。 接 着 , 选 出 对 应 最 大 k 个 本 
征 值 的 本 征 向 量 作为 主 成 分 方向 。 通 常 最 大 的 本 征 值 (对 应 的 本 征 向 量 ) 只 有 很 少 几 个 ,这 意 
味 着 上 是 取决 于 数据 本 身 的 子 空间 的 内 在 维 数 , 而 剩 下 的 & 一 k 维 往往 由 噪声 引起 。 现 在 我 们 
构造 一 个 d xx 的 矩阵 A, 它 的 列 由 k 个 本 征 问 量 组 成 。 将 原始 数据 按照 下 式 投 影 到 这 个 k 维 
子 空间 上 就 得 到 数据 的 主 成 分 表示 

x = F(x)=A'(x— p) (94) 


训练 一 个 简单 的 三 层 神 经 网 络 使 之 成 为 一 个 “自动 编码 器 ”(auto-encoder) ,就 可 以 实现 上 
述 投影 ,如 图 10-22 所 示 。 数 据 集 中 的 每 个 模式 都 同时 提供 给 输入 节点 和 输出 节点 ,网 络 基 于 
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误差 平方 和 的 梯度 下 降 准 则 (比如 反 向 传播 算法 ) 训 练 。 可 以 证 明 它 可 以 实现 误差 平方 和 的 最 
小 化 (习题 44)。 网 络 训 练 好 后 ,输出 层 就 可 以 不 要 了 ,从 隐 含 层 上 可 读 出 主 成 分 。 
图 10-22 一 个 具有 线性 隐 单 元 的 输出 
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三 层 神 经 网 ,被 训练 为 一 个 自动 编码 WOOOOQ 5 


Nd 


器 ,其 内 部 表达 恰好 对 应 于 数据 的 主 | 本 
成 分 。 变 换 F 是 向 k- 维 子 空间 工 F, | vá 
CF) 上 的 一 个 线性 投影 线性 ”的 ORS ' N Pa 
A ph A 
HOODOO 2 | 
ry 


10.13.2 非 线性 成 分 分 析 
主 成 分 分 析 是 在 最 小 误差 平方 和 准则 下 ,找到 一 个 k 维 的 线性 子 空间 ,使 其 能 够 最 好 地 表 
达 原 始 遍 维 数据 。 如 果 原 始 数 据 的 特征 存在 复杂 的 非 线 性 关系 ,那么 线性 子 空间 的 表示 性 能 
将 很 差 ,而 非 线 性 成 分 分 析 (nonlinear component analysis, NLCA) 就 可 能 发 挥 作用 。 

用 来 实现 这 种 非 线 性 成 分 分 析 的 神经 网 络 有 五 层 单元 ,请 看 图 10-23。 最 中 间 的 层 包 含 
k<d 个 线性 单元 , 非 线性 成 分 将 在 这 里 读 出 。 请 注意 该 层 的 上 下 两 个 层 都 含有 非 线性 单元 。 
整个 网 络 就 像 一 个 自动 编码 器 或 自动 联想 器 (auto-associator) 一 样 ,用 在 第 6 章 中 提 到 的 技术 
去 训练 。 也 就 是 说 ,每 个 d 维 模式 从 网 络 的 输入 端 送 和 人 ,同时 这 个 模式 又 作为 网 络 的 期 望 输 
出 。 当 在 误差 平方 和 准则 下 训练 时 ,这 个 网 络 就 是 一 个 自动 编码 器 。 

如 果 把 网 络 顶 端 两 层 去 掉 , 剩 下 的 三 层 就 可 以 用 来 提取 非 线 性 成 分 。 对 每 个 输入 模式 x， 
这 三 层 网 络 的 输出 就 是 k 个 非 线 性 成 分 。 

要 理解 这 个 五 层 网 络 的 功能 ,只 要 抓 住 两 个 函数 映射 F 和 FF,。 如 图 10-23 所 示 ,F 是 从 
d 维 空 间 投 影 到 k 维 非 线 性 子 空间 ,Fs 是 从 k 维 非 线 性 子 空间 映 回 d 维 空间 。 

对 这 个 五 层 的 非 线性 网 络 的 训练 ,通常 会 遇 到 很 多 的 局 部 极 小 值 。 自 然 ,我 们 必须 小 心地 
设置 k。 回 想 在 (线性 ) 主 成 分 分 析 中 ,成 分 个 数 k 的 选择 可 以 通过 本 征 向 量 的 谱 来 确定 。 如 果 
将 本 征 值 按照 大 小 排序 ,而 第 上 十 1 个 值 比 前 一 个 值 有 很 大 的 下 降 , 这 就 表示 成 分 子 空间 “ 自 
然 " 的 含有 k 维 。 同 样 的 ,假设 在 这 个 五 层 网 络 的 中 间 一 层 预 设 不 同 的 节点 数 k, 并 且 不 存在 局 
部 极 小 问题 ,那么 经 过 训练 后 ,训练 误差 应 该 随 着 k 的 增 大 而 减 小 。 如 果 k 十 1 对 大 的 误差 降低 
得 非常 小 ,这 就 可 能 表明 中 间 层 的 x 就 是 子 空间 维 数 的 “自然 的 ”选择 。 


图 10-23 ”五 层 结构 的 神经 网 络 含有 两 a 输出 

层 非 线性 单元 ,可 以 被 训练 成 为 一 个 自 OAAO 加 Xd 
动 解码 器 ,并 对 数据 的 非 线 性 成 分 形成 
一 种 内 部 的 表示 方式 。 这 个 过 程 也 可 以 ” FRE QOOOD |r 
在 特征 空间 中 去 解释 ( 右 图 )。 变 换 F, 
将 d 维 空间 非 线 性 投影 到 大 维 非 线性 子 
空间 TC(F;)。T(F,) 的 点 经 变换 Fi Ra FRE OOOO 
映射 到 原始 的 d HES] tk. AVIA. 
网 络 顶 上 两 层 被 删除 ,剩余 三 层 网 络 把 Ta 

mA x BES BI 25 TCF: ) 输入 
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我 们 不 应 该 断言 主 成 分 分 析 或 非 线性 成 分 分 析 对 分 类 总 是 有 好 处 的 。 如 果 相 比 于 类 别 之 
间 的 差别 来 说 ,噪声 很 大 ,那么 主 成 分 分 析 将 找到 噪声 的 主 方向 而 不 是 信号 的 ,就 如 在 图 10-24 
中 那样 。 如 果 碰 到 这 种 现象 ,我 们 应 该 忽略 噪声 ,只 提取 出 反映 类 别 信息 的 方向 。 我 们 紧 接着 
就 会 讨论 这 个 技术 。 

图 10-24 ”图 中 显示 了 来 自 于 两 个 类 的 特征 ,同时 含有 非 线性 成 分 。 非 党 

明显 ,这 两 个 类 可 以 沿 着 z 曲线 的 方向 分 得 很 开 ,但 噪声 的 存在 使 得 最 大 

的 非 线 性 成 分 是 沿 着 n 的 曲线 方向 。 如 果 只 保留 最 主要 的 成 分 就 会 扔 掉 

信号 而 将 噪声 留 下 来 ,因此 识别 效果 很 差 。 同 样 的 问题 也 会 出 现在 线性 主 

成 分 分 析 中 ,其 中 坐标 是 线性 正 交 的 








“10.13.3 独立 成 分 分 析 

主 成 分 分 析 和 非 线 性 成 分 分 析 的 基本 思想 是 在 特征 空间 寻找 一 些 方向 ,使 得 在 新 的 方向 
上 表示 数据 的 误差 平方 和 最 小 ,同时 又 能 有 效 地 降低 维 数 。 独 立成 分 分 析 (independent com- 
ponent analysis,1CA) 却 是 在 特征 空间 上 寻找 最 能 使 得 数据 互相 独立 的 方向 。 在 对 盲 源 信号 
(blind source) 分 离 的 情况 下 有 利于 理解 ICA 的 目标 。 假设 存 在 d 个 独立 的 标量 信号 源 
zi) ,i 二 1,…,d,t 可 以 看 成 时 间 , 满 足 1 全 1 三。 为 方便 表示 ,我 们 将 任 一 时 刻 的 这 4 个 信和 号 
合成 一 个 向 量 x(1) ,并 假定 它 的 均值 为 零 。 因 为 既然 假定 了 信号 源 是 互相 独立 的 ,而 且 又 没有 
噪声 ,我们 就 可 以 写 出 多 元 密度 函数 为 


d 
pix(t)] = | | pio] (95) 


i=] 


假设 同时 还 有 一 个 k 维 的 观测 向量 
s(t) = Ax(t) (96) 


其 中 A 是 个 大 小 为 kx d EM. WR x 代表 声 源 ,s 代表 xk 个 麦克 风 收 到 的 信和 号 ,那么 A 就 是 
反映 信道 衰减 参数 的 矩阵 。ICA 的 目标 就 是 要 从 s 中 提取 出 4 个 独立 成 分 。 如 果 x 的 各 个 成 
分 之 间 确 实 是 独立 的 ,就 像 式 (95) 表 示 的 那样 ,那么 ICA 傅 实 可 以 帮助 我 们 发 现 源 信号 (图 
10-25}. 

出 于 简化 的 考虑 ,我 们 假定 传感器 组 观测 到 的 信号 个 数 与 信号 源 发 出 的 独立 信号 个 数 相 
同 , 即 k 二 4d( 习 题 49 要 求 读者 将 下 面 的 结论 推广 到 上 > 之 d)。 那 么 输出 y 的 概率 密度 和 s 密度 
关系 可 以 表示 为 ， 





py(y) = oe (97) 
其 中 本 是 雅 可 比 和 矩阵 
OS Os) 


OSa OSd 
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Ns 
-1 
d 个 源 信 号 k 个 感知 的 信号 d 个 独立 成 分 
( 例如 恢复 的 估计 信号 ) 
x(t) s(t) y(t) 


图 10-25 ”独立 成 分 分 析 (ICA) 是 个 无 监督 方法 ,可 以 用 于 盲 源 信号 的 分 离 。 在 这 个 问题 中 ,两 个 
或 者 更 多 的 源 信号 (假设 互相 独立 ) a (Ct). ae (1),...,Zxy(t) 被 线性 混杂 在 一 起 产生 出 信和 号 
8 (1) ss (t) s... ,54(1), 上 kk 衬 d( 本 图 对 应 d= 二 2, 上 一 3)。 在 给 定 观 测 信号 x(t) 并 假定 有 4 个 独立 成 分 
的 前 提 下 ,ICA 的 任务 就 是 找 出 s 中 隐藏 的 独立 成 分 。 在 盲 信号 分 离 的 应 用 中 ,ICA 就 是 要 找到 源 
信号 





并 且 
dyi 
J= wil] Far (99) 
我 们 将 输出 y 模 拟 成 源 信 号 s 的 线性 变换 ,并 加 上 一 个 静态 的 非 线 性 部 分 , 即 
y = f [Ws + wo] (100) 


其 中 w BiB a. fl RIPEN sigmoid 函数 。ICA 的 中 心 任 务 就 是 寻求 参数 W 和 w 
使 得 输出 y 的 各 分 量 y; SBR. MBER EBAY E BRERA A Goint entropy) 
H(y) = —€[In py(y)] 

= €[In |J|] 一 上 [in Ps(s)] (101) 

ee, rT 

与 权 值 独立 

其 中 的 数学 期 望 运 算是 对 所 有 的 采样 点 上 一 1,，…, 工 进行 的 。 

因此 参数 W 的 学 习 可 以 用 基于 式 (101) 的 梯度 下 降 的 方法 , 即 











dH(y) Ə 3 3 和 | ay; 
A O a = — In|W] + —! at 102 
Wee il a a] | a (102) 
这 里 使 用 了 式 (99)。 用 分 量 的 形式 , 式 (102) 右 边 第 一 项 为 
9 cof[W;;] 
In |W] = ———+ 
JW., n [W] Wi (103) 
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其 中 分 量 W; NRA TF (cofactor) ECC DURER EE W 第 i1 行 第 7 列 后 得 到 的 (Cd 一 1)X 


(K 一 1) 维 矩阵 的 行列 式 ( 人 参见 附录 A. 2.6 节 ) 的 积 , 所 以 我 们 有 


ð — 1 一 | 
aw PIWI =W] (104) 
假设 最 后 的 非 线性 函数 是 S BAY (sigmoidal) , 式 (103) 就 给 出 矩阵 W 的 权 值 更 新 规则 
AW x [W'] + (1 — 2y)s, (105) 


其 中 工 代 表 每 个 分 量 都 为 1 的 d 维 常数 向 量 。 
习题 48 需要 在 同样 的 前 提 假 设 下 ,用 大 似 的 方法 证 明 偶 置身 量 wo 的 学 习 规 则 是 
Awọ x 1 — 2y (106) 


式 (105) 和 (106) 给 出 了 ICA MJA. BEA Fc A sh a A TB o E E A A 
难 的 。 如 果 在 模式 识别 应 用 ICA ,而且 要 识别 的 类 别 数目 是 已 知 的 ,那么 在 没有 其 他 信息 的 情 
况 下 ,d 应 该 被 设置 为 等 同 于 类 别 数 目 。 如 果 这 个 数目 实在 太 大 ,ICA 会 对 数值 仿真 过 分 敏 
感 , 因 而 给 出 不 可 靠 的 独立 成 分 。 

一 般 来 说 ,如 果 用 于 实现 分 类 的 预 处 理 ,ICA 的 特性 比 线性 或 非 线 性 PCA 都 好 。 我 们 在 
图 10-24 中 看 到 过 , 主 成 分 不 一 定 对 分 类 问题 很 有 效 。 如 采 不 同 的 信和 叶 源 均 有 不 同 的 模型 , 那 
么 可 以 预期 它们 是 独立 的 ,而 ICA 就 可 用 来 把 它们 提取 出 来 。 


10.14 低 维 数据 表示 和 多 维 尺度 变换 


判定 一 个 聚 类 的 结果 是 和 否 有 意义 是 一 件 困难 的 事 。 这 种 困难 部 分 地 来 自 于 人 类 对 高 维 
(>3) 数 据 空 间 的 结构 缺乏 可 视 化 观察 的 能 力 。 如 果 对 数据 采用 与 常规 的 距离 概念 不 同 的 相 
似 或 不 相似 的 衡量 ,这 个 问题 会 变 得 更 严重 。 相 似 性 与 距离 不 一 样 , 它 不 满足 拓扑 条 件 , 因 而 
就 更 难 把 所 数据 的 内 部 结构 了 。 要 解决 这 个 问题 ,我 们 可 以 尝试 在 低 维 空间 上 重新 表示 这 些 
数据 并 可 视 化 地 显示 出 来 。 为 了 体现 原来 数据 之 间 的 关系 ,在 低 维 空间 上 点 与 点 的 距离 要 与 
原始 空间 上 点 与 点 的 距离 (或 相似 性 ) 相 互 对 应 。 如 果 我 们 在 二 维 或 三 维 空间 上 很 好 地 实现 这 
个 思想 ,这 就 向 我 们 提供 了 一 个 了 解数 据 的 结构 的 有 价值 的 方法 。 这 种 寻找 一 种 数据 的 构 型 
使 得 其 点 间距 离 与 原始 (高 维 ) 数 据 之 闻 的 相似 性 相 一 致 的 一 般 过 程 常 被 称 为 “多 维 尺 度 变 换 ” 
(multidimensional scaling, MDS) 。 

让 我 们 先 从 一 个 简单 的 例子 开始 ,在 这 里 ,在 ?2 个 样本 x... x, 之 间 是 可 以 计算 距离 
MW. Sy, 为 x; 在 低 维 空间 上 的 映像 ,6; Rx, Al x, 的 距离 ,dj 为 y:; My, 的 距离 (图 10-26), 
现在 我 们 寻求 y，…,y,( 即 映像 点 的 集合 ) 构 型 ,同时 要 求 映 像 点 之 间 的 n(n 一 1)/2 个 距离 d; 
要 尽量 接近 对 应 的 原始 距离 6; 。 通 常 不 可 能 对 所 有 的 距离 都 实现 di 二 ,所 以 我 们 需要 准则 
函数 用 来 比较 并 选择 几 个 不 同 候选 答案 。 下 面 几 个 误差 平方 和 函数 都 是 合理 的 准则 : 


2 一 5 
2 
2 i<j Ô; 
dij — 8:3 \? 
J=}, (=) (108) 
ij 


i<j 





Jee = (107) 


l (dij — 8Y 


Jef = 
Dic; bij i<j oF 





(109) 
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图 10-26 图 中 给 出 一 个 例子 ,三 维 空 原始 空间 目标 空间 
间 的 数据 点 被 映射 到 二 维 空间 。 每 个 点 
xi 的 大 小 和 颜色 都 与 它 在 二 维 空 间 的 映 
Ry EM. ct ERI E A k JL E E pE 
离 ， Bp Ô; = | X; — X, | 和 di; E 
1 一 六 |。 在 一 些 典 型 的 应 用 中 ,原始 
数据 空间 常常 是 高 维 的 ,作为 目标 的 低 
维 空 间 常 常 是 二 维 或 者 三 维 的 ,这 是 为 
了 方便 数据 可 视 化 


因为 这 些 准则 函数 只 牵涉 点 间距 离 , 所 以 构 型 做 刚体 运动 将 不 会 改变 它们 的 值 。 而 且 , 它 
们 都 经 过 了 归 一 化 ,所 以 原始 数据 点 整体 缩放 不 会 影响 它们 的 最 小 值 。 在 3 个 准则 中 ,J。 强 
调 绝 对 误差 (与 6 的 大 小 无 关 ),J jy 强调 相对 误差 (与 1d; 一 2% | 的 大 小 无 关 ) ,这 两 个 的 折 中 就 
是 Ju , 它 综 合 考虑 了 绝对 误差 和 相对 误差 。 

一 旦 选取 了 某 个 准则 函数 后 ,就 可 以 定义 “最 优 构 型 ", 即 能 够 最 小 化 准则 孔 数 的 映像 点 集 
合 。 这 个 集合 可 以 通过 标准 的 梯度 下 降 法 求解 : 先 给 出 y;，…,y, 的 初始 值 , 然 后 沿 着 准则 函 
数 下 降 最 快 的 方向 去 调整 y 。 因 为 低 维 空间 的 距离 是 dy = ll yoy || EXT y: 的 梯度 就 是 
WA Y 一 页 方 回 的 单位 阿 量 , 所 以 很 容易 得 到 准则 郴 数 的 梯度 ; 








2 ya -— Yj 
Vy, Jee = =D (dk; — 8) i 
Dri 57 3 dy j 
drj — Ox Ye — Yj 
Viste =2>, 
jek kj Ki 
2 dkj — Oe; Yk — Yj 


Vy, Jef = 





2 icj ôi Fe Ok dy 


初始 构 型 可 以 随机 选取 ,或 者 以 任何 使 映像 点 散布 方便 的 方式 选取 。 如 果 映 像 点 是 在 d 维 
空间 中 , 则 一 个 简单 而 有 效 地 获得 初始 值 的 方法 就 是 只 取 原 始 样 本 向 量 对 应 方差 最 大 的 前 a 个 
分 量 。 

下 面 的 例子 用 来 说 明 这 个 算法 到 底 能 产生 什么 样 的 结果 。 如 图 10-27 所 示 , 一 共有 30 个 
数据 点 等 间距 地 螺旋 排列 在 三 维 空间 中 : 

xik) = cos(k/V/2) 
x2(k) = sin(k/V2) 
x3(k) = k/V2, k=0,1,...,29 

当 使 用 J 准则 时 ,经 过 20 次 梯度 下 降 和 迭代 就 产生 右 图 所 示 的 二 维 上 映像 点 。 当 然 , 将 这 些 
映像 点 平移 .旋转 或 作 反 射 变 化 也 得 到 很 好 的 结果 。 

对 于 高 维 非 度量 数据 的 多 维 尺度 化 问题 ,相似 性 5; 的 排序 会 比 本 身 的 数值 更 重要 。 较 理 
想 的 结果 就 是 低 维 空间 点 间距 离 dy 排序 能 保持 同 原始 数据 中 ,的 一 样 。 让 我 们 先 将 
m 二 n(n 一 1)/2 个 相似 性 ò; 排序 ,使 得 Op qe QO, ,并 令 必 表示 任意 的 m 个 数 ,满足 单调 递 
增 条 件 
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图 10-27 30 个 数据 点 的 形式 为 x = 目标 空间 
(cost KASD) esin kA Ya KIEF k= O01,,. 
29, 并 在 左 图 中 表示 出 来 。 多 维 尺度 交换 使 用 
Ju ( 式 (109)) 作 为 准则 .在 二 维 空间 中 得 到 对 
应 的 映像 点 ,如 右 图 所 示 。 可 以 清楚 地 看 到 ， 
低 维 空间 上 的 点 很 好 地 表达 了 高 维 空间 数据 
点 间 的 关系 


和 











一 般 来 说 di 不 能 满足 这 种 排序 要 求 , 同 时 必 也 不 能 代表 距离 。 但 是 我 们 可 以 衡量 d; 会 
在 多 大 的 程度 上 靠近 这 种 排序 , 即 用 


P — = min) (di = dij) (1119) 


dij i<j 
度量 ,其 中 di AEW HERE BER. AE Jon BELL R oy, ,…,y 描述 原始 数据 之 间 相 似 关 
系 的 好 坏 程 度 。 可 惜 ] ,不 能 直接 用 米 求 解 最 优 yoy, RAM dy Fld, hE O 时 不 仅 满足 
所 有 的 条 件 ,而且 /还 是 最 小 的 。 因 此 ,有 必要 引入 归 一 化 


A 


don On 


dJia = 
D ie d? 


J mu 不仅 对 构 型 的 平移 、 旋 转 和 放大 具有 不 变性 ,而 且 可 以 通过 最 小 化 J mn KE RA 
yi，… sys。 实验 表明 , 当 数 据点 个 数 比 映像 点 空间 的 维 数 多 时 ,单调 递增 的 排序 条 件 是 非常 强 
的 。 这 个 现象 是 可 以 理解 的 ,如 果 注 意 到 约束 条 件 个 数 是 与 数据 点 个 数 平方 成 正比 的 。 同 时 
也 可 以 解释 我 们 多 次 提 到 的 它 可 以 用 于 从 非 度 量 数据 中 恢复 度量 信息 。 映 像 点 的 表达 能 力 随 
看 它 的 维 数 的 增长 而 增强 ,为 了 得 到 更 小 的 J ,也 许 有 必要 使 映像 点 空间 超过 三 维 。 如 果 我 
们 拟 使 用 那些 大 多 基于 度量 空间 的 聚 类 算法 ,那么 维 数 增 大 并 不 算 很 大 的 代价 。 

10.14.1 自 组 织 特征 映射 

自 组 织 特征 映射 (self-organizing feature map) 与 MDS 密切 相关 ,有 时 又 称 为 拓扑 有 序 映 
射 (topologically ordered map) #% Kohonen 自 组 织 特征 映射 。 就 跟前 面 的 一 样 ,该 算法 的 目标 
就 是 用 低 维 目标 空间 的 点 去 表示 高 维 原始 空间 的 点 ,使 得 这 种 表示 能 尽 可 能 地 保留 原始 的 距 
离 或 相似 性 关系 。 目 组 织 特征 映射 的 算法 没有 存储 大 量 样本 的 空间 要 求 , 所 以 具有 比 MDS 
低 得 多 的 空间 复杂 性 (在 实践 中 ,这 两 种 方法 都 具有 较 高 的 时 间 复 杂 性 )。 而 且 , 如 果 从 原始 空 
e s 间 存在 非 线 性 映射 结构 ,该 算法 能 表现 得 更 出 色 ， 

一 个 具体 的 例子 来 说 明 自 组 织 特 征 映 射 的 原理 是 非常 方便 的 。 假 设 我 们 要 学 会 一 种 从 
Pi stone rl E the 间 ) 的 非 线 性 映射 ,如 图 10-28 所 示 。 
原始 空间 由 一 个 可 移动 的 机 械 辟 来 探索 。 机 械 臂 是 由 同样 长 度 的 两 根 杆 匀 连 而 成 , 它 的 一 端 
固定 , 男 一 端 是 探 涉 。 因 此 原始 空间 的 每 个 点 (zi ,x;) 就 和 角度 向 量 8= 二 (981.9;) 对 应 。 算 法 之 
所 以 用 9 而 不 用 (zi ,xz;) 是 因为 它们 和 它们 的 非 线 性 变换 都 不 那么 容易 得 到 。 虽然 在 本 例 中 、 
非 线 性 只 涉及 到 反 三 角 函 数 , 但 在 大 多 数 的 应 用 中 ,只 会 更 复杂 甚至 根本 就 是 未 知 的 。 
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图 10-28 KP Ay — m A eS — HE A k a AS OT dott RRA. MA 
间 ( 直 线 ) 上 的 每 个 点 y,' 总 存在 一 个 原始 空间 中 的 对 应 点 ,如 果 这 个 点 出 现在 神经 网 络 输入 端 中 ， 
就 会 使 得 了 7 最 活跃 。 为 了 使 问题 清楚 ,可 以 将 那些 原始 空间 中 对 应 点 连接 起 来 ,就 如 同 将 目标 直线 
放 人 原始 空间 中 一 样 。 我 们 称 这 条 连接 得 到 的 暴 线 为 且 标 空间 的 预 映 像 (pre-image)。 在 图 中 , 某 
个 原始 点 使 得 y 最 活跃 , 式 (113) 给 出 的 学 习 更 新 规则 使 得 权 向 量 向 这 个 原始 点 移动 (用 小 箭头 表 
WERP). KAARI Ay 一 y|) 的 缘故 , 预 上 映像 上 离 这 个 权 向 量 较 近 的 点 也 向 那个 原始 点 移 
动 。 如 果 机 械 辟 采样 很 多 次 ,就 可 以 党 到 一 个 拓扑 有 序 映射 


现在 的 任务 就 是 ;给 出 一 串 秋 对 应 原始 空间 中 的 采样 ) ,建立 一 种 由 到 y 的 映射 ,使 之 满足 
原始 空间 中 相近 的 两 个 点 在 目标 空间 的 映像 点 也 是 比较 接近 的 。 这 种 保持 邻接 关系 的 做 法 就 
是 "拓扑 有 序 映射 "名 称 的 来 源 。 
映射 是 通过 一 个 简单 的 两 层 神经 网 络 学 到 的 。 网 络 有 两 个 输入 p 和 9; ,每 个 输入 单元 都 
和 很 多 输出 单元 连接 ,输出 单元 就 对 应 目标 直线 (空间 ) 上 的 点 。 当 外 到 来 时 ,目标 空间 中 的 每 
个 节点 都 计算 它 自 己 的 净 激 活 net, 二 和 w, 。 响 应 最 大 的 点 称 为 y”。 这 个 点 的 权 向 量 和 所 有 与 
它 邻 接 的 点 的 权 向 量 都 根据 下 式 更 新 : 
wilt + 1) = w(t)+nAy — Do; (113) 


其 中 IO EZYJER, MEERA Bt. AM ACly—y DEA RR, 5 y= y 时 
K1. HEMME y—y' | 的 增 大 而 减 小 。 窗 函数 是 算法 成 功 的 关键 : 它 保证 目标 空间 的 相 邻 点 
具有 类 似 的 权 向 量 , 并 因此 对 应 原始 空间 中 的 相 邻 点 ,保证 了 拓扑 邻 域 关系 (图 10-29)。 每 个 
权 向 量 都 被 归 一 化 为 1 当然, 只 有 那些 更 新 过 的 权 向 量 才 有 必要 作 归 一 化 计算 )。 学 习 速 度 
7(1) 会 随 着 迭代 次 数 的 增加 而 缓慢 的 递减 ,这 样 可 以 保证 更 新 会 收敛 ,算法 会 自己 结束 。 
Æ 10-29 一 维 ( 左 ) 和 二 维 ( 右 ) 目 标 空间 
自 组 织 上 映射 的 典型 窗 函 数 。 在 这 两 种 情况 
下 ,最 活跃 的 y 对 应 的 权 向 量 获 得 了 最 大 
HER. By 远 一 点 的 更 新 量 就 小 一 些 

















式 (113) 可 以 有 更 直截了当 的 解释 。 当 任 一 模式 到 来 时 ,目标 空间 的 “获胜 "单元 y" 就 进 
行 调整 使 自己 更 像 这 个 模式 ,而 y 的 邻居 也 作 调 整 (尽管 没有 y 那么 强烈 ) 使 得 它们 的 权 值 
更 接近 于 输入 模式 。 这 样 ,输入 空间 的 相 邻 点 就 会 在 目标 空间 找到 相 邻 的 映像 点 。 

当 有 足够 多 的 模式 到 来 后 , 式 (113) 可 以 保证 原始 空间 相距 较 近 的 点 在 目标 空间 的 映像 也 
很 近 。 通 俗 地 说 ,就 像 目 标 空间 的 直线 被 置 于 原始 空间 一 样 ,学 习 过 程 拉 伸 直线 使 它 充满 整个 
原始 空间 。 在 图 10-30 中 ,显示 出 自 组 织 映 射 的 中 间 过 程 。 经 过 150 000 次 迭代 (训练 样本 ) 
后 .就 得 到 最 终 的 拓扑 映射 。 
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上 面 的 这 种 学 习 方 法 具有 普遍 性 ,几乎 可 以 用 在 任何 原始 空间 .目标 空间 和 连续 的 非 线性 
映射 上 。 图 10-31 给 出 了 从 二 维 正方 形 空间 到 正方 形 格 点 空间 的 自 组 织 映射 。 
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FE 10-31 目 组 织 映射 产生 从 二 维 正方 形 空间 到 正方 形 ( 格 点 ) 目 标 空 间 的 映射 。 如 同 图 10-28 中 
的 一 样 ,目标 空间 的 每 个 格 点 显示 在 原始 空间 对 应 点 的 上 端 ,原始 空间 最 大 程序 地 激发 目标 点 


这 种 算法 得 到 的 日 组 织 映 射 关系 通常 存在 固有 的 模糊 性 。 比 如 ,从 正方 形 到 正方 形 的 映 
射 就 有 8 个 可 能 的 方向 ,分 别 对 应 4 种 旋转 和 2 种 对 称 变 换 的 组 合 。 这 种 模糊 性 一 般 与 后 续 
目标 空间 的 聚 类 分 类 无 多 大 关系 。 但 是 ,映射 模糊 性 可 能 会 导致 更 为 严重 的 缺陷 , 即 自 组 织 映 
射 中 出 现 扭曲 “kink) 现 象 。 某 种 初始 的 条 件 可 能 导致 自 组 织 映 射 的 一 部 分 学 到 某 种 方向 信 
息 而 另 一 部 分 学 到 不 同 的 方向 信息 ,如 图 10-32 所 示 。 当 这 个 现象 发 生 时 ,最 好 是 重新 初始 化 
权 向 量 并 重新 开始 学 习 过 程 ,尝试 用 更 宽 的 窗 函 数 和 更 慢 的 学 习 速 度 。 
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图 10-32 在 某 种 初始 (随机 ) 权 向 量 和 (随机 选择 的 ) 特 定 模式 序列 下 ,得 到 扭曲 的 自 组 织 映射 , 即 
使 进一步 地 训练 也 不 能 消除 这 个 现象 。 如 果 碰 到 这 个 问题 ,应 该 重新 初始 化 权 向 量 并 开始 新 的 学 
习 , 可 以 尝试 用 更 宽 的 窗 孙 数 和 更 慢 的 学 习 速 度 
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这 个 学 习 算 法 还 有 一 个 好 处 , 它 自动 将 原始 空间 的 样本 的 概率 密度 p(x) 也 考虑 进去 。 在 密 
度 较 高 的 区 域 会 吸引 更 多 目标 空间 的 点 , 即 会 有 更 多 的 映像 点 对 应 这 块 区 域 ,如 图 10-33 所 示 。 
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10-33 ”本 图 与 图 10-31 一 样 , 除 了 原始 数据 空间 的 样本 是 不 均匀 的 。 在 正方 形 区 域 中 心 附近 
(红色 ) 的 采样 密度 比 其 他 地 方 高 20 倍 。 所 以 自 组 织 映 射 在 中 心 附近 分 布 更 多 的 节点 


目 组 织 特征 映射 可 以 用 在 很 多 系统 中 。 比 如 ,在 信号 处 理 中 我 们 可 利用 滤波 器 组 的 输出 
将 信号 波形 映射 到 二 维 目 标 空间 。 当 这 个 技术 用 到 发 元 音 时 ,相似 的 发 音 如 /ee/ 和 /eh/ 在 目 
标 空间 会 很 近 , 而 其 他 的 如 /ee/ 和 /oo/ 相 距 很 远 , 这 和 在 MDS 中 看 到 的 一 样 。 后 续 的 监督 学 
习 可 以 通过 在 二 维 目 标 空间 中 标记 各 个 区 域 得 到 一 个 完整 的 分 类 器 ,当然 由 于 维 数 的 降低 ,所 
需要 的 监督 训练 会 很 少 。 
10.14.2 但 类 与 降 维 

维 数 灾难 在 模式 识别 中 实在 是 个 大 问题 ,因而 出 现 了 很 多 降 维 (dimensionality reduction) 
算法 。 与 我 们 刚刚 学 习 过 的 各 种 方法 不 同 ,这些 降 维 算 法 中 的 大 部 分 都 提供 了 一 个 函数 映射 
过 程 ,可 以 对 任何 一 个 特征 向 量 求 得 在 低 维 空间 上 的 对 应 点 。 主 成 分 分 析 和 因子 分 析 (factor 
analysis) 都 是 经 典 算法 ,它们 通过 线性 组 合 特征 以 达到 降 维 目的 。 就 如 在 第 3 BHM 10. 13. 1 
方 中 提 到 的 , 主 成 分 分 析 的 目标 是 在 低 维 空间 上 找到 最 能 反映 原始 数据 方差 的 一 种 表示 ;因子 
分 析 的 目的 是 在 低 维 空间 上 找到 最 能 体现 原始 数据 之 间 相 关 性 的 一 种 表示 。 如 果 我 们 把 降 维 
问题 看 成 去 掉 高 度 相关 (元 余 ) 的 特征 或 合并 这 些 相 关 特 征 , 那 么 聚 类 技术 就 可 以 在 这 里 发 挥 
作用 。 现 在 我 们 从 数据 矩阵 (data matrix) WA RRR PF. REEMA DA nX d, €H 
每 一 行 代表 一 个 模式 (数据 )。 普 通 的 聚 类 算法 可 看 成 是 对 矩阵 的 行进 行 某 种 合并 ,并 用 少数 
的 容 类 中 心 代 表 所 有 数据 。 而 降 维 算法 可 理解 为 对 矩阵 的 列 进行 组 合 , 并 用 结合 的 特征 表示 
每 个 数据 。 

让 我 们 考虑 层次 聚 类 算法 的 一 种 简单 变 体 ,并 用 来 降 维 。 我 们 用 d x a 大 小 的 相关 和 矩阵 
R=| o; 代替 样本 之 则 的 距离 矩阵 ,相关 系数 p; 和 协 方差 的 关系 为 

Ojj 

V (114) 
AN OSAS, H o= M of =1 分 别 代表 特征 完全 不 相关 和 完全 相关 ,所 以 A R AR RE 
则 的 相似 性 关系 。 如 果 两 个 特征 对 应 的 扩大 ,这 两 个 特征 就 容易 被 合并 为 一 个 特征 ,因而 就 
降低 了 一 维 。 这 样 继续 下 去 就 可 以 得 到 下 面 的 层次 算法 : 





Pij = 





算法 8 (层次 降 维 算法 ) 

1 begin initialize d’ ,D,;<-{x;},i=1,...,d 
2 d<-d+1 

3 do d~-d—1 
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4 从 式 (114) 计 算 R 

5 求 最 相关 的 不 同 聚 类 ,例如 也 ; FID; 
6 D:—D: UD; $ | 

7 Ht BED; 

8 until d =d" 

9 return d ^R% 


也 许 合 并 两 个 特征 最 简单 的 方法 就 是 求 平均 (这 种 方法 心照 不 宣 地 假定 所 有 特征 都 经 过 
归 一 化 ,因而 上 共有 差不多 的 数值 范围 ) 。 在 这 样 定义 的 新 特征 上 计算 相关 乞 阵 是 没有 问题 的 。 
当然 ,对 算法 稍 作 修改 就 会 有 很 多 的 变形 ,但 我 们 不 准备 深入 下 去 。 

如 果 以 模式 分 类 作为 目的 ,那么 对 我 们 讨论 过 的 各 种 降 维 方法 的 批评 中 最 严厉 的 就 是 它 
们 过 于 关心 数据 的 精确 表示 了 。 过 多 强调 那些 具有 很 大 变化 范围 的 特征 组 合 。 对 分 类 问题 来 
说 ,我 们 感 兴趣 的 是 判别 能 力 而 不 是 表达 能 力 。 虽 然 大 家 公认 理想 的 表达 肯定 会 使 得 分 类 非 
Fs fe) A ,但 是 还 不 清楚 不 用 明显 分 类 准则 的 聚 类 是 否 能 找到 这 种 理想 的 表达 。 当 然 , 即 使 算法 
找到 了 清楚 而 且 孤 立 的 聚 类 ,也 并 不 能 保证 这 对 分 类 有 好 处 ,毕竟 每 个 孤立 类 内 的 点 可 能 来 自 
高 度 散布 的 类 别 。 一 般 来 说 ,最 有 意义 的 特征 是 使 类 均值 的 差 比 标准 差 大 的 那些 特征 ,而 不 仅 
仅 只 是 使 标准 差 大 的 特征 。 简 而 言 之 ,对 分 类 问题 来 说 ,我 们 对 类 似 于 第 3 章 中 的 多 重 判 别 分 
棉 方 法 的 技术 更 感 兴趣 。 

对 模式 分 类 的 降 维 算 法 有 大 量 的 相关 理论 。 有 些 算 法 对 特征 进行 线性 组 合 获得 新 的 特 
征 , 其 他 一 些 则 筛选 出 特征 集 的 一 个 子 集 。 这 些 理论 的 主要 问题 就 是 将 模式 识别 人 为 地 分 为 
特征 提取 过 程 加 上 后 续 的 分 类 过 程 。 如 果 存 在 真正 意义 上 的 最 优 特征 提取 器 ,那么 它 一 定 就 
是 一 个 最 优 的 分 类 器 。 当 很 多 额外 约束 加 在 分 类 器 上 或 样本 数量 有 限时 ,问题 就 不 那么 简单 
了 。 从 文献 中 可 以 找到 各 种 各 样 的 方法 ,针对 不 同 的 场合 去 克服 这 个 问题 。 应 该 充分 利用 问 
题 的 领域 知识 去 获取 更 加 有 价值 的 特征 ,因为 这 经 常 是 最 有 益 的 步骤 。 


本 章 小 结 


无 监督 学 习 和 聚 类 是 从 未 标记 样本 中 提取 出 有 用 信息 的 过 程 。 如 果 数 据 来 自 于 一 个 混合 
密度 , 且 混合 密度 的 各 个 成 分 密度 用 参数 O 表示 ,那么 8 可 以 通过 最 大 似 然 方法 或 贝 叶 斯 方法 
估计 得 到 。 更 一 般 的 方法 是 定义 类 与 类 之 间 的 相似 性 和 一 个 全 局 准则 函数 ,比如 误差 平方 和 
准则 和 散布 矩阵 的 迹 准 则 。 可 惜 很 少 存在 解析 的 方法 去 优化 准则 函数 并 获得 相应 的 聚 类 结 
末 , 而 一 系列 的 贪 柳 ( 局 部 的 逐步 求 精 ) 迭 代 算法 却 很 成 熟 , 如 -均值 聚 类 和 模糊 二 均值 聚 类 。 

如 有 果 试 图 在 不 同 层次 上 揭示 数据 的 内 部 结构 ,就 要 用 到 层次 聚 类 方法 。 基 于 合并 (或 “ 自 
底 癌 上 ”) 的 方法 开始 时 ,每 个 样本 自 成 一 类 ,然后 迁 代 合并 最 相似 的 两 个 类 。 基 于 分 裂 (或 “ 自 
顶 癌 下”) 的 方法 则 从 一 个 包含 所 有 样本 的 大 类 开始 ,随后 迭代 分 裂 为 更 小 的 类 。 层 次 聚 类 的 
结果 可 以 用 树 图 清楚 地 表示 。 如 果树 图 的 相 邻 两 层 之 间 在 相似 性 方面 出 现 很 大 的 差别 ,常常 
表示 已 经 找到 “自然 "的 聚 类 结果 。 另 一 方面 , 聚 类 验证 的 问题 一 一 当 类 别 数 目 未 知 时 一 一 被 
提出 ,并 可 以 用 假设 检验 去 研究 。 假 设 检验 的 零 假设 是 总 共存 在 c 个 类 别 。 我 们 增加 一 个 类 
别 然 后 判断 误差 了 清 数 的 减少 量 是 否 具有 统计 显著 性 。 

竞争 学 习 是 一 种 基于 神经 网 络 的 聚 类 方法 , 它 的 特点 是 每 次 迭代 后 ,最 接近 输入 模式 的 聚 
类 中 心 同 该 模式 方向 调整 。 为 了 保证 学 习 过 程 会 自动 停止 ,学 习 速 度 参数 必须 衰减 。 竞 争 学 








AMEPF IPRA m 467 





习 可 以 稍 作 修 改 , 如 果 没 有 合适 的 类 中 心 接 受 输 入 的 模式 ,就 会 产生 一 个 新 的 类 别 , 就 如 在 
leader-follower 算法 和 自 适 应 共振 算法 (ART) 中 一 样 。 虽 然 这 些 方法 具有 很 多 优点 ,比如 计 
算 方便 ,可 以 跟踪 渐变 的 数据 集 ,但 是 它们 不 可 能 对 简单 的 全 局 准则 函数 (比如 误差 平方 和 ) 实 
现 真 正 的 最 优化 。 无 监督 学 习 和 聚 类 算法 通常 对 用 户 指定 的 一 些 参数 很 敏感 。 

网 论 方 法 在 聚 类 时 将 数据 当 作 顶点 ,并 按照 距离 度量 和 一 些 启发 式 原则 连接 起 来 。 这 样 
产生 的 类 虽然 可 以 表示 复杂 的 结构 ,但 是 也 无 法 真正 实现 全 局 代价 的 最 优化 。 图 论 方法 对 数 
据 的 细节 会 更 敏感 。 

成 分 分 析 在 特征 空间 中 寻求 一 些 方向 或 轴线 ,能 提供 一 种 改进 低 维 空间 上 数据 表示 的 方 
法 。 主 成 分 分 析 (PCA) 是 一 个 线性 的 过 程 , 主 方向 就 是 对 应 协 方差 矩阵 最 大 本 征 值 的 本 征 向 
量 。 在 主 方向 上 的 投影 可 以 优化 误差 平方 和 准则 。 非 线性 成 分 分 析 (NLCA) ,比如 自动 编码 
神经 网 络 ,会 在 特征 空间 中 产生 非 线性 曲面 ,并 将 任意 的 模式 x 投 影 在 上 面 。 独 立成 分 分 析 
(ICA) 的 目标 就 是 在 特征 空间 中 找到 互相 统计 独立 的 方向 , 它 可 以 通过 对 炉 准 则 做 梯度 下 降 
求解 。 这 些 独立 的 方向 也 许 揭 示 了 数据 的 真正 独立 来 源 ,可 用 于 盲 源 信和 号 的 分 解 。 

和 目 组 织 特征 映射 和 MDS 是 两 个 一 般 的 降 维 方法 。 自 组 织 特征 映射 可 以 是 非 线 性 的 ,而 
且 可 以 用 低 维 目标 空间 上 距离 相近 的 点 表示 原始 数据 空间 上 距离 相近 的 点 。 因 为 这 种 方法 保 
持 了 邻接 关系 , 故 这 个 特征 映射 被 说 成 在 拓扑 上 是 正确 的 。 原 始 空间 和 目标 空间 可 以 是 任意 
的 形状 ,而 且 从 原始 空间 到 目标 空间 的 映射 还 要 取决 于 原始 空间 的 样本 密度 。MDS 也 要 学 习 
点 和 点 之 间 的 映射 ,而 且 要 保持 邻接 关系 。 这 个 技术 经 常用 于 数据 可 视 化 。 由 于 它 需 要 所 有 
点 和 点 之 间 的 距离 米 最 小 化 全 局 准则 函数 , 它 的 空间 复杂 性 限制 了 应 用 范围 。 


文献 和 历史 评述 


关于 无 监督 学 习 和 聚 类 的 文献 最 早 可 以 追溯 到 1894 年 ,Karl Pearson 利用 样本 矩 (sam- 
ple moment) 去 求解 含有 两 个 单 变量 正 态 分 量 的 混合 密度 的 参数 。 很 多 关于 模式 分 类 的 书籍 
都 谈 到 了 无 监督 学 习 , 有 几 本 书 和 几 篇 总 结 文章 是 专门 讨论 无 监督 学 习 的 ,而 且 很 深入 ,比如 
参考 书目 L1j 和 [23]j。 关 于 无 监督 方法 的 数学 分 析 来 自 于 信和 号 压缩 领域 ,如 向 量 量化 技术 
(VQ) 就 是 要 使 得 任意 一 个 向 量 被 c 个 基本 向 量 中 的 某 一 个 所 代表 ,就 像 我 们 用 聚 类 中 心 代表 
整个 类 的 元 素 一 样 [18] 。 

参考 文献 L34j 是 关于 混合 模型 的 一 本 书 ,[46] 讨 论 无 监督 学 习 中 的 可 辨识 性 问题 。Has- 
selblad 在 [20j 中 表明 一 维 正 态 的 参数 是 如 何在 无 监督 环境 下 学 到 的 。Lloyd 在 [32] 中 介绍 了 
-均值 算法 。 该 算法 引出 了 很 多 变形 ,如 利用 Mahalanobis 距离 [33], 利 用 模糊 (fuzzy) 度 量 
[5,6j]。 在 [12j 中 ,总 结 了 很 多 基于 合并 的 层次 聚 类 算法 。[27] 中 的 “进化 枝 ”( 源 于 希腊 语 k 
lados, 意 为 分 枝 ) 不 仅 是 生物 分 类 学 的 基础 ,而 且 为 分 类 方法 在 各 个 科学 领域 的 应 用 提供 了 有 
用 的 育 景 。 层 次 聚 类 技术 在 [26j 中 得 到 了 非常 好 的 介绍 。 

关于 主 成 分 分 析 的 数学 原理 可 以 从 [9,24,13,30] 中 了 解 。 独 立成 分 分 析 是 由 Jutten 和 
HeraultL25] 提 出 的 ,而 Gaeta 和 LacoumeL16] 引 入 最 大 似 然 法 。[39] 和 [40] 对 最 大 似 然 法 作 
了 推广 并 给 了 一 个 最 大 似 然 的 解法 。Bell 和 Sejnowski[4] 用 神经 网 络 实现 了 独立 成 分 分 析 
CICA) ,并 详细 解释 了 ICA 和 “信息 最 大 化 ”L36j 之 间 的 关系 。[L48] 是 一 篇 关于 ICA 的 很 好 的 
介绍 。 有 几 项 研究 证 明了 它 在 分 类 技术 中 的 应 用 ,如 [15]。MDS 有 了 时 也 称 为 “ 非 线 性 投影 ” 
(与 线性 投影 相 区 别 ) ,在 L8] 和 [L43] 中 讨论 , 而 它 同 聚 类 方法 的 关系 在 [31] 中 得 到 研究 。 

始 于 20 世纪 80 年 代 早 期 ,Kohonen 发 表 了 一 系列 关于 自 组 织 特 征 上 映射 的 文章 528] ,在 
[29] 和 [42] 中 可 以 读 到 很 好 的 介绍 。 算 法 的 收敛 性 质 在 [49] 中 得 到 证 明 。[33] 对 自 组 织 特征 
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映射 和 其 他 算法 如 主 成 分 分 析 、 判 别 分 析 等 做 了 很 好 的 比较 。 有 很 多 关于 自 组 织 特 征 映 射 方 


法 的 应 用 ,从 语音 信号 处 理 到 寻找 非常 贫乏 模式 。 
自 适 应 共振 主要 试图 研究 生物 系统 中 的 模式 识别 和 聚 类 机 理 ,L10j 讨 论 了 这 个 问题 。 算 
法 的 中 心思 想 在 [35j 得 到 了 精彩 的 阐述 。[45j 将 自 适应 共振 中 用 到 的 思想 和 术语 都 翻译 为 标 


准 的 工程 术语 ,并 附 有 一 个 完备 的 术语 表 。 






a 


i e Mae ~ 
ami 习题 


10.2 $ 
l. 假设 X 可 以 在 0,1，… 977 之 间 取 值 ,P(z| 介 是 由 C 个 成 分 组 成 的 混合 密度 


P(x|0) = > (™ Jona _ 6,y"-* P(o) 
j=l 
其 中 6 是 个 长 度 为 c 的 参数 向 量 。 
(a) 假 设 先 验 概率 P(o)) 是 已 知 的 ,请 说 明 当 me 的 时 候 , 混 合 密度 不 是 可 辨识 的 。 
(b) 在 这 些 条 件 下 ,混合 密度 是 完全 不 可 辨识 的 吗 ? 
(c) 如 果 先 验 PC(w;) 也 是 未 知 的 ,你 对 (a)、(b) 的 答案 是 什么 ? 
.考虑 由 两 个 三 角形 分 布 组 成 的 混合 密度 。 每 个 分 量 密度 w 以 Am; 为 中 心 点 ,以 w 为 半 
宽度 : 


Le) 


re, any | A le = mlw) for |x — wil < wi 

p(x lw) Tru) = | 0 其 他 

(a) (RIE P(w,)= P(w;)= 二 0.5, 请 写 出 最 大 似 然 估计 上 w Mo, 的 表达 式 ,i 一 1,2。 

(b) 在 (a) 的 条 件 下 ,混合 分 布 是 可 辨识 的 吗 ? 

(c) 假 设 两 个 成 分 分 布 的 宽度 w; 都 是 已 知 的 ,但 中 心 是 不 知道 的 。 同 时 假定 存在 某 些 
值 , 当 两 个 中 心 取 这 些 值 时 ,每 个 样本 的 概率 密度 都 是 非 零 的 。 请 给 出 最 大 似 然 求 
解 类 别 中 心 的 公式 。 | 

(d) 在 (c) 的 条 件 下 ,混合 分 布 是 可 辨识 的 吗 ? 





3. 假设 一 个 一 维 的 混合 正 态 模型 由 两 个 正 态 分 量 组 成 ,每 个 分 量 都 以 原点 为 中 心 : 
1 2 19,2 1 2 14,2 
= P —x°/(201) 1— P _ a -x*/ (205) 
P(x|8) (0) 17 + ( on T° 2 


而 参数 癌 量 为 6 一 (Pl(w) ,0 02)’, 
(a) 证 明 在 这 些 条 件 下 ,这 个 混合 密度 是 完全 不 可 辨识 的 。 
(b) 假 设 Plw) 的 值 是 确定 而 未 知 的 ,混合 模型 是 可 辨识 的 吗 ? 
(OR o 和 os 是 已 知 的 ,但 Plo ) 是 未 知 的 。 模 型 是 可 辨识 的 吗 ” 也 就 是 说 ,已 (ww ) 
可 由 样本 数据 求 出 吗 ? 
10.3 $ 
4. 令 x 表示 含有 d 个 分 量 的 向 量 ,每 个 分 量 在 0 或 1 间 取 值 ,让 P(x10) 表 示 c 个 多 变量 
伯 努 利 分 布 组 成 的 混合 分 布 ， 


PCxlg) = 》 Paloi, 9)P(wi) 


i=l 
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on 


Oy 


~] 


其 中 
d 
P(x|wi, 0;) = [1a — Qy) T 
j=! 
(a) 请 推出 下 面 的 偏 导 数 公式 : 
9 InP(xlw,0) xi— 
00 0(l—0,) 


(b) 用 最 大 似 然 估计 的 一 般 公式 证 明 参 数 向 量 & 的 最 大 似 然 估计 和 必须 满足 
8 — Dl P (wilxx, 8;)%: 
| Yii P(wilxx, 8;) 


(Cc) 解释 你 在 Cb) 中 得 到 的 答案 。 


. 令 p(x19) 表 示 含 有 < 个 分 量 的 混合 密度 ,分 量 密 度 p(x|w,0)~NCpKi,01。 利 用 


10.3 TRAR, UEA X of 的 最 大 似 然 估 计 满 足 
52 — Md Dra P (0x @) l — Ail? 
> Ploi), 6.) 
其 中 ow, AIP Cw; |x, ,0,) 的 定义 分 别 在 公式 (25) 和 (27) 中 给 出 ，。 


.考虑 一 个 含有 c -个 成 分 的 混合 概率 ,参数 向 量 9 和 先 验 概率 P(w) 都 是 未 知 的 。 令 


5P(w) 表 示 P(w;) 的 最 大 似 然 估 计 ,6; 表示 0; 的 最 大 似 然 估计 。 证 明 如 果 似 然 函 数 是 可 


A Ii a 
P(w;) = z ?Ploilxx, 8) 


k=] 


Pl(wilxx, 8)Vo, In p(xxlwi, 8;) = 0 
k=l 


其 中 
p(X,|@;, 0;) Ê (wi) 


Plwilxx, 8) = 7 — 
j= P(x |@;, 0;) P(@;) 


. 当 我 们 用 最 大 似 然 方法 估计 混合 密度 的 参数 时 ,时 常 假 定 各 个 分 量 密度 是 互相 独立 的 。 


相反 ,现在 我 们 假定 
p(xla) = >> ploj, o) P(ew)) 


j=l 


其 中 a 是 同时 在 几 个 (甚至 所 有 ) 分 量 密度 中 出 现 的 参数 。 令 1 表示 个 样本 的 对 数 似 
PR PRB WER /关于 a 的 导数 是 


al << ð In p(xxlw;, a) 
— — >》 2 P(w;|Xz, a) —— 


ga fol jal da 


其 中 
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P(Xk|@;, @) P(w;) 
p(Xrla) 
8.9, FO, 是 分 量 密度 pCxlwi, 外 ) 和 pl(x|wz, 纪 ) 的 未 知 参数 。 假 设 刚 开始 时 和 0 是 
统计 独立 的 ,所 以 有 pO 0) = pi (A) pr (A). 
(a) 证 明 当 观察 到 第 一 个 样本 xi; 时, 如果 
dp(x|w;, 0;) 
06; 


pO , 8, |zi) 就 不 可 能 再 分 解 为 pi CF, |x.) Al pe CF, | x, ) HY Fe AR 

(b) 请 从 无 监督 学 习 中 参数 的 统计 相关 性 方面 解释 一 下 本 题 的 含义 。 

9. 假设 混合 密度 p(x10) 是 可 辨识 的 。 证 明 在 一 般 条 件 下 , 随 着 样本 数量 的 增加 ， 
DOIDA RER KAFA 6 的 真实 值 为 中 心 的 狄 拉克 涌 数 。 

10. 假设 式 (3) 中 的 似 然 晒 数 可 微 ,请 给 出 式 (11)~(13) 的 最 大 似 然 条 件 。 

10.4 节 

11. WR palo bD ~N, D), Dec ADERE RDNA. 4, 表示 马 的 
第 pq TWR oO" RAN LNA pg 个 元 素 ,zx,《k) 为 x 的 第 p ATR ODA u 的 第 


P (w; |Xk, a) = 


#0, i=1,2 


p 个 元 素 。 
Ca) HE BH 
ð In p(x;,|@;, 0;) 6 ; | 
a = (1 — Et) [op — (xp(k) — Mp (idx (k) — Hg (i))] 
其 中 
-| 4 p=q 
Pq 0 pF 4 
ERAT OFS. | 


n 


.(b) 利 用 这 个 的 结果 和 习题 7 的 结果 证 明 允 的 最 大 似 然 估计 满足 
3.! 
n 


xx, 一 》 Plo) fei Bi 
k=l i=l 

其 中 PCw,) 和 是 由 式 (24) 和 (C25) 给 出 的 最 大 似 然 估计 。 
. 如 果 下 面 的 情况 出 现 , 证 明 先 验 概率 最 大 似 然 估计 可 能 为 0。 令 p(xz|lw)~NN(0,1)， 
p(x|@.)~N(0,1/2) ,所 以 Plw) 为 混合 密度 


Do 


l 


p(x) = eee + Ua teu) ay e 
仅 有 的 未 知 参数 ， 
(a) 证 明 当 x? 二 ln2 时 观察 到 一 个 样本 zi ,PlCw) 的 最 大 似 然 估计 PCw) 是 0。 
(DiR 2? >In 2 时 ,Plw) 叉 是 多 少 ? 
Co) 总 结 并 解释 你 的 答案 。 
13. 考虑 单 变量 混合 正 态 混合 密度 


(x| -) 二 ~ P)) ex (=) 
p Hi 1...3? Hec = J2n0 p 2 o 
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所 有 的 分 量 都 具有 相同 而 且 是 已 知 的 方差 so。 假设 所 有 的 均值 都 互相 距离 很 远 ( 相 对 
于 9) 以 至 于 对 任何 观察 到 的 样本 zx, 只 有 一 个 分 量 的 密度 是 不 可 忽略 的 。 请 用 启发 式 
方法 证 明 


l 
max [= inpe Eoi Xall, pe) | 
He Un 
的 值 在 独立 样本 个 数 nn 很 大 的 时 候 可 以 近似 为 


é 1 
2 P(w;) In P(w;) — 5 In[2r oe)] 
其 中 e 是 自然 对 数 的 底 。 
14.x15...5%, An Sd 维 样本 , 允 是 任意 的 大 小 为 d X d 的 非 奇异 和 矩阵。 证 明 使 得 


SK — x) E(x — x) 
k=] 
最 小 的 x 就 是 样本 的 均值 x=1/n 7-1 x, 。 
15. 对 式 (31) 进 行 微分 ,推出 式 (32) 和 (33)。 
16. 证 明 算 法 1 的 计算 复杂 度 是 O(ndcT), 其 中 是 代表 4 维 样本 的 个 数 ,c 是 假定 的 类 
DA H.T EZERK. 
17. 请 将 式 (24) 一 (26) 之 间 的 步骤 补充 完整 。 注 意 请 写 出 你 需要 的 各 种 假设 。 
10.5 $ 
18. 考虑 将 2 个 样本 分 到 cc 个 类 别 的 所 有 可 能 的 组 合 。 


(a) 证 明 一 共有 
1 “< 一 /ec 
一 (cr myn 
C. i=l I 

种 不 同 的 分 类 方法 。 


(b) 当 n=100,c=5 时 一 共有 多 少 种 可 能 的 方法 ? 
(c) 当 ne 时 ,请 找到 一 种 近似 的 简便 计算 (a) 的 方法 ,并 用 这 种 方法 去 估算 将 1000 
个 点 分 到 10 个 类 别 的 可 能 方法 数目 。 
10. 6 节 
19. Æ 10.9.4 节 中 定义 了 样本 之 间 的 距离 ,证 明 如 果 只 对 相 异 度 做 单调 递增 的 变换 , 则 样 
本 之 间 的 距离 排序 具有 不 变性 。 读 者 可 以 按照 下 面 的 步骤 证 明 。 
(a) 定 义 以 为 第 k 层 相 异 度 的 值 ,并 令 第 一 层 的 w= 二 0。 对 更 高 的 层次 ,wv 代表 k 一 1 层次 
上 最 相似 ( 相 异 度 最 小 ) 的 两 个 类 之 间 的 相 异 度 的 值 。 请 解释 为 什么 对 于 两 种 类 间 
距离 Onin AO max ,vi 序列 都 是 递增 的 。 
(b) 假 设 盖 个 样本 中 的 任何 两 个 都 不 相同 , 即 风 盖 0。 请 用 这 个 条 件 去 证 明 单 调 性 , 即 0 
=y Sve S33 Sy 
10.7 节 
20. 请 利用 式 (56) 中 的 定义 ,从 式 (54) 推 出 式 (55)。 
21. 集合 DD 含有 个 样本 , 且 被 划分 为 c 个 互 不 相交 的 子 集 D1，,...,D,, 子 集 D; 中 的 样本 
均值 为 m; WRD: 是 空 集 , 则 m; 无 定义 。 误 差 平 方 和 只 与 非 空子 集 有 关 , 即 








472 se #10% 


J= }, 2 Ix mill? 
D; #0 xeD; 
假设 n 宇 c, 请 证 明 对 于 能 最 小 化 J 的 划分 是 不 存在 空子 集 的 。 并 请 解释 。 
22. 考虑 含有 n=2 kt 个 样本 的 集合 ,其 中 k 个 在 z= 一 2 处 ,Kk 个 在 x 二 0 处 ,1 个 在 r= 处 。 
Ca) 证明 当 聚 类 数目 为 2, 且 af 过 2C(k 十 1) 时 ,最 小 化 J. 的 划分 会 将 k 个 z==0 处 的 样本 
和 1 个 z=a 处 的 样本 合 为 一 类 。 
(b) 当 a@? 守 2(k 十 1) 时 ,最 优 分 组 是 什么 ? 
23. n= (f e(a (I a (。) ,下 面 给 出 了 3 种 划分 
1)Di= {x ,xX},D: = {X;, X4) 
2)Di= {x »x,},D2=({x, > Xa } 
3) Di = {X19 Xo 9X3 fp »D2= {xy} 
证 明 按 误差 平方 和 准则 J.( 式 (54)), 第 3 种 划分 是 最 好 的 ,而 按 行列 式 准则 Ja CK 
(68) ) ,前 两 种 划分 是 最 好 的 。 
24. 令 xX; 一 HES () 9X3 一 (0) a= (5 _) ,下 面 给 出 了 3 种 划分 : 
DD: = (x, »X2},D2= (x3 5X4} 
2)D1 = {x 9X4} » D2 = {X2 Xs} 
3) D1 一 (Xi ,Xs 9X3} 5D2={X, } 
(a) 找 出 误差 平方 和 J.( 式 (54)) 最 小 的 划分 。 
(b) 找 出 行列 式 准则 Joe( 式 (68)) 最 小 的 划分 。 
25. 下 面 考 虑 在 特征 空间 变换 下 的 不 变量 问题 。 
(a) 证 明 如 果 对 数据 作 非 奇异 线性 变换 , 则 和 矩阵 Sw Ss AY AS GEE AL ++ Ag 是 不 变 的 。 
(b) 证 明 SF Sw 的 本 征 值 ，... ,vs 和 Sw'Ss 的 本 征 值 满 足 关 系 v; 二 1/(1 十 4;)。 
(c) 用 上 面 的 结果 证 明 如 果 数 据 作 非 奇 异 线性 变换 ,J 二 1Sw 1/1Sz | 也 是 不 变 的 。 
26. 在 式 (62) 和 (63) 中 ,定义 了 类 内 散 列 矩阵 和 类 间 散 列 和 矩阵 ,总 的 散 列 和 矩阵 定义 为 Sr = 
Sw 十 Ss 。 证 明 下 面 的 度量 ( 式 (70) ,(71)) 对 于 数据 的 线性 变换 具有 不 变性 。 


(a)trl SF! Sy |= STR 


(b) |Sw |/1Sr| = ily 


Cc) | Sy! Sp | ih, 


(d) 度 量 (c) 中 准则 的 值 通常 是 多 少 ? 请 解释 为 什么 这 个 值 使 得 该 准则 没有 什么 用 处 。 
27. 证 明 式 (68) 给 出 的 聚 类 准则 Ja 对 下 面 的 线性 变换 具有 不 变性 。 令 了 表示 一 个 非 奇 异 
的 矩阵 ,数据 的 变换 方式 为 x = Tx. 
(a) 使 用 旧 的 均值 向 量 m 和 散 列 矩阵 S: 及 工 , 写 出 新 的 m, M S. 
(b) 使 用 旧 的 Js 写 出 新 的 4s, 并 证 明 它 们 只 差 一 个 纯 量 因子 。 | 
(c) 因 为 该 参数 对 所 有 的 划分 都 一 样 ,请 说 明 J。 A. 在 比较 不 同 划 分 时 具有 同样 的 
结果 。 


28. 矩阵 Sw Ss 的 本 征 值 41,… ,4s 是 最 基本 的 不 变量 。 证 明 在 对 数据 做 非 奇 异 线性 变换 
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时 ,这 些 本 征 值 确实 是 不 变 的 。 
29. 考虑 在 使 用 行列 式 准 则 聚 类 时 出 现 的 一 些 问题 。 

(a) 证 明 类 内 散 列 和 矩阵 S, 的 秩 不 会 超过 ;一 1,Sw 的 秩 不 会 超过 DY) 和 (2a 一 1) 一 2 一 c。 

(b) 利 用 上 面 的 结果 解释 为 什么 类 间 散 列 和 矩阵 Ss 可 能 会 变 成 奇异 矩阵 。 (当然 , 如 采 

样本 都 限制 在 一 个 低 维 的 子 空间 中 ,尽管 n 一 c 之 4d ,Sw 也 可 能 是 奇异 的 。) 589 
10. 8 节 
30. 一 种 推广 基本 最 小 平方 差 算法 的 途径 就 是 定义 准则 本 数 


c 


Jr = 90K — m,;S7' (x — m) 


i=] xeED; 


其 中 m 是 子 集 D; 中 的 ;个 样本 的 均值 向 量 ,Szr BRA ROIS. 
(a) 证 明 对 于 非 奇 异 线 性 变换 来 说 ,Jr 是 不 变 的 。 
(b) 证 明 当 把 样本 x 从 集合 D; BAD; 时 Jr 会 变 为 


nj 








I = Jr +| a-m S7 (Rm) — — R-m S7 &—m) | 


n;+1 ni 一 
(c) 利 用 此 结果 , 写 出 迭代 最 小 化 Jr ARE. 

31. 想 一 想 将 一 个 样本 从 一 个 子 集 移 到 男 一 个 子 集 是 怎样 影响 均值 和 误差 平方 和 的 ,并 推 
导 式 676) 和 (77) 。 

10.9 节 

32. 定义 相似 性 度量 为 sax =x'x’/C | x |] Ex I. 
(a) 如 果 x 的 每 个 分 量 都 是 二 值 的 ( 取 一 1 或 1),z=1 表 示 X 拥 有 第 ;项 属性 ， 

Zi 一 一 1 则 表示 x 不 具有 这 个 属性 ,请 解释 相似 性 度量 的 意义 。 
(b) 证 明 在 这 种 情况 下 , 欧 几 里 德 距离 的 平方 满足 
Ix — x|? = 2d(1 — s(x, x’)) 

33. 用 x 和 x 表示 a 维 空间 上 的 任意 两 点 ,gq HABER (GO). X Fe h NR 

方法 ,请 判断 是 否 属于 距离 度量 ,或 是 否 属于 超 距离 度量 。 


(a)s(x,x’) = || x—x’ ||’ ( 欧 几 里 德 距离 的 平方 ) 
(b)sCx,x’)= || x—x’ || ( 欧 几 里 德 距 离 ) 


(osx, x = (4, zm— rx, | 4 (Minkowski E) 
(d)s(x,x’) =x'x’/( |x || lx Il) (RIZ) 
Ce)s(x,x’) =x'x’ (点 积 ) 
34. ŽD: 含有 zi 个 样本 ,d; 代 表 D; AD; 之 间 的 距离 。 一 般 来 说 ,如 果 D; MD; 合并 为 一 
个 新 的 类 用， D: 到 男 一 个 类 DD。 的 距离 不 只 和 dus 和 和 dy 有关 。 但 是 ,考虑 等 式 
Ang = Ady; + Qida; + Bai; + yldni — dnj| 
证 明 下 面 对 系数 asap Yy 的 不 同 取 值 会 导致 不 同 的 距离 鹃 数 。 
Ca) dinin :Qi—=Qj—=0.5,8=0,7=—0.5 





590 
(bd :wx 一 o =0. 5,8=0,Y=+0.5 590) 
(Odana = a Fa en, O 





N; n; 
= ——_ ,a,= =—a@a;,Y=0 
nitn ? nin; VP o? 


CD devon ta; 
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35. 在 某 种 层次 聚 类 中 ,每 次 迭代 都 将 某 两 个 类 合并 为 一 个 类 , 而且 这 两 个 类 的 合并 是 所 
有 可 能 合并 中 使 得 误差 平方 和 增加 最 小 的 一 个 。 如 果 第 i 个 类 有 nn; 个 样本 ,均值 为 
m; ,证明 合并 后 使 得 误差 平方 和 增加 最 小 的 两 个 类 同时 也 是 使 

ninj 2 
页 十 ™ —m,|| 

最 小 的 两 个 类 。 

. 假设 用 误差 平方 和 准则 J.( 式 (54)) 聚 类 。 证 明 式 (83) 定 义 了 一 个 有 效 的 “距离 ” 度 
量 , 而 且 如 果 将 距离 最 近 的 两 个 类 合并 ,那么 对 应 的 本 的 增加 也 是 最 小 的 。 

37. 现在 有 8 个 点 的 一 维 数据 {一 5.5, 一 4.1, 一 3.0, 一 2.6,10.1,11.9,12.3,13.6}), 如 果 
类 与 类 之 间 的 相似 性 定义 为 20 — dain (Dis Di), FEP dain CDi, Dj) FER (79) P45 AE 
义 。 请 画 出 它们 的 树 图 ,并 据 此 说 明 有 两 个 自然 类 。 

38. 现在 有 10 个 点 的 一 维 数据 {一 2.2, 一 2.0, 一 0.3,0.1,0.2,0.4,1.6,1.7,1.9,2.0}), 如 
果 类 与 类 之 间 的 相似 性 定义 为 20—d mn (Di Dj) ,其 中 dj, (Di DOER) HRE 
义 。 请 画 出 它们 的 树 图 ,并 据 此 说 明 有 3 个 自然 类 。 

39. 假设 最 近邻 算法 一 直 进 行 直 到 所 有 的 数据 点 都 属于 同一 类 ,这样 图 中 的 任何 两 个 节点 都 
有 路 径 相 连 。 请 证 明 在 图 中 连接 节点 的 边 长 总 和 不 会 超过 任何 生成 树 的 边 长 总 和 。 

10. 10 节 

40. 假设 我 们 从 a 维 的 正 态 模型 px) 一 Nm,Z) 中 获得 了 7 个 样本 , 忆 是 一 个 正定 的 协 方 
差 矩 阵 。 

(a) 在 式 (87) 中 给 出 了 J.(1), 请 证 明 它 是 以 ndo AWN EAD. ERRO. 

(b) 证 明 这 个 分 布 的 方差 是 2ndo%  。 

(c) 如 果 将 正 态 分 布 的 数据 点 用 一 个 经 过 中 心 的 超 平面 一 分 为 二 ,证 明 当 x 足够 大 时 ， 
这 种 从 类 划分 的 误差 平方 和 可 以 近似 为 正 态 分 布 , 且 均 值 为 n(d 一 2/z)o ,方差 为 
2n(d 一 8/x )o ,其 中 oo 在 (a) 中 给 出 。 

. 零 假 设 与 决 乍 数据 集 的 类 别 数 目 相 关 。 请 不 用 零 假 设 推导 式 (490) 和 (91) ,注意 写 清 楚 
所 用 到 的 任何 假设 和 条 件 。 

10. 11 节 

42. 考虑 用 基于 欧 几 里 德 距 离 的 简单 贪心 法 产生 生成 树 。 

(a) 写 一 段 伪 码 程序 ,实现 nn 个 4 维 数据 的 最 小 生成 树 。 
(b) 令 £ 表 示 每 个 节点 平均 的 链接 数 , 试 估计 算法 的 平均 空间 复杂 性 。 
(c) 计 算 平 均 时 间 复 杂 性 。 

10. 12 节 

43. 考虑 有 自 适应 共振 聚 类 算法 。 

(a) 说 明 标 准 的 ART 算法 (图 10-19) 不 能 学 习 XOR 问题 。 
(b) 解 释 为 什么 ART 生成 的 聚 类 数目 与 样本 提供 的 顺序 有 关 。 
(c) 讨 论 ART 对 平稳 数据 和 非 平 稳 数 据 的 优势 和 缺点 。 

10. 13 节 

44. 说 明 d 维 数据 均 方 误差 最 小 化 准则 将 导致 一 个 k 维 (xk 二 4d) 的 K-L 变换 ( 式 (94)) 过 
程 。 为 简单 起 见 ,假设 数据 有 零 均值 (至 少 可 以 规格 化 为 零 均 值 ) 。 

(a) 将 向 量 x 投影 到 单位 向 量 e 上 所 获得 的 标量 ale) = xe 明显 是 一 个 随机 变量 。 令 a 
的 方差 为 = 二 6,[a?]。 证 明 该 方差 满足 = 二 eZe, 其 中 三 =E.[xx' | 是 x 的 自 相 关 


3 


Oy 


4 


jk 


~ 
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JERE. 
(b) 对 应 于 极限 值 和 稳 态 值 的 向 量 e 应 该 满足 2 Cete) = (e), HH de 是 一 个 小 扰 
动 。 由 此 证 明 在 平稳 态 时 (6e)'Ze 一 0。 
(c) 考 虑 到 小 的 扰动 be 并 不 影响 e 的 长 度 , 这 是 因为 Se 垂直 于 向 量 e, 利 用 这 个 条 件 和 
上 面 的 结果 证 明 (6e)'Ze 一 (be)'e 一 0, 其 中 入 为 纯 量 ,并 且 证 明 其 成 立 的 必要 和 充 
分 条 件 是 ze 一 Me( 依 据 式 (94) ) 。 
(d) 定 义 一 个 误差 平方 和 准则 用 来 描述 将 d 维 数据 投影 到 kC(k 二 a) 维 空间 上 上。 证 明 为 
了 最 小 化 该 准则 , 子 空间 应 由 自 相 关 和 矩阵 的 个 最 大 的 本 征 向 量 生 成 的 。 
45. 考虑 一 个 三 层 d- kd (kd) 神 经 元 实现 一 个 线性 神经 净 网 络 。 证 明 当 训练 训 自 联想 
模式 时 ,得 到 的 就 是 PCA. 
46, 考虑 利用 五 层 神经 网 络 实现 NLCA, 
(a) 证 明 如 有 果 图 10-23 的 所 有 单元 都 是 线性 的 ,在 作为 自动 编 器 训练 网 络 时 ,中 间 层 得 
到 的 是 线性 PCA. 
(b) 简 要 说 明 为 什么 三 层 网 络 无 法 实现 非 线 性 PCA ,哪怕 中 间 层 具有 非 线 性 单元 。 
.利用 两 个 高 斯 分 布 的 和 仍然 是 高 斯 分 布 的 事实 ,说 明 为 什么 ICA 无 法 将 两 个 或 更 多 
的 高 斯 源 信号 相 分离 。 
48. 利用 推导 式 (102) 同 样 的 手段 ,推导 利用 sigmoidal 非 线性 的 ICA 中 的 偏 置 权 值 的 学 
习 规 则 (由 式 (106) 给 出 ) 。 
49. 将 式 (102) 和 (106) 的 结果 推广 到 x 比 4 大 的 情况 ,如 图 10-25 所 示 。 注 意 W 不 再 是 方 
阵 。 
10.14 节 . 
50. 考虑 用 MDS 技术 在 一 维 空间 表示 点 xi 一 (1,0)',xs 二 (0,0)',xs 二 (0,1)*。 为 了 确保 
解 是 惟一 的 ,要 求 映 像 点 满足 O= yi 二 ys 二 ys。 
(a) WE BH F FAA yo = (1472) /3, y; =2 yz BT, J 2. ME WU K RGA aE. 
Cb) HE BA TE t BY y2 = (244/2) /4 ) y3 = 2Y? 时 ;J 准则 函数 达到 最 小 化 。 


:> 
~,] 





。 上 机 练习 
以 下 部 分 练习 使 用 了 下 表 中 的 数据 : 


l 
2 
3 
4 
5 
6 
7 
8 
9 
0 


— 





10.4% 
L 考虑 如 下 的 一 元 高 斯 混合 密度 : 
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(x|0) = Pv ex _ (> — ny + I~ Pi) ex _l (; — my 
P Viro PY O] V2ron | 2 02 


写 一 段 程序 实现 参数 的 最 大 似 然 估计 ,要 求 使 用 上 表 zi 的 20 个 数据 ,并 在 如 下 假设 下 

















(at A: P(e, ) =0. 5,0, =, =1; RH Li feo 
(b) EG 1: PCa) =0. 5; FRA 0) = 02 =F, 4 sho 
(c) EB A: PCa) =0. 5; FRAO) Oo Mi feo 
Cd) AA: PCa, ) ,al ,az 9 Ly fe 。 

2. 写 程序 实现 上 -均值 算法 (算法 1) ,并 用 表 中 的 三 维 数据 进行 测试 。 下 面 给 出 了 每 种 测 
试 的 类 别 数 目 和 初始 值 。 
(adc=2,m,(0) =(1,1,1)',m,(0) =(—1,1,—1)'. 
(byc 二 2,m (C0) 二 (0,0,0)',mz (0)==(1,1, 一 1)*。 将 得 到 的 结果 与 (a) 中 的 结果 进行 比 

较 , 并 解释 差别 ,包括 迭代 次 数 的 差别 。 

(c)c=3,m, (0) =(0,0,0)',m, (0) =(1,1,1)',m; (0) =(—1,0,2)'. 
(d)c=3,m,(0)=(—0. 1,0,0. 1)',m, (0) = (0, —0, 1,0. 1)',m, (0) =(—0.1,—0. 1, 
0. 1):。 将 得 到 的 结果 与 (a) 中 的 结果 进行 比较 ,并 解释 差别 ,包括 迭代 次 数 的 差别 。 

3. 重 作 练 习 2, 但 利用 模糊 上 -均值 聚 类 ,并 设置 5 二 2( 式 (32) 和 (33))。 

4. 利用 一 维 数 据 D= (一 5.0, 一 4.5, 一 4.1, 一 3.9,2.5,2.8,3.1,3.9,4.5)}, 说 明 在 模糊 上 - 
均值 聚 类 算法 (算法 2) 中 错误 指定 类 别 数 目 会 出 现 什么 问题 。 


(a) 在 4 种 不 同 的 条 件 ( 
要 接近 xX 二 0。 
(b) HER c 二 3,5 二 4 和 c=3,6 二 1 下 的 不 同 结果 , 并 讨论 造成 不 同 结果 的 原因 。 


.在 下 面 的 极端 条 件 下 ,解释 为 什么 少量 的 已 标记 样本 可 以 有 助 于 改善 对 未 标记 样本 的 
K- 均 值 聚 类 。 


=2\ /b=1 
“一 。 Xx (pg) Fo LF EI» A BF E Aa A i A 


a1 


—2 — 2 2 
(a) 给 定 4 个 正 态 分 布 palo ~ NG D Rm h mes, Jp =g) 


m= _。)。 请 从 每 个 分 布 中 各 产生 50 个 样本 。 


(b) Mix 200 个 样本 中 随机 的 选取 c==4 个 作为 初始 值 。 你 选择 的 4 个 点 恰好 各 属于 一 
个 分 布 的 概率 有 多 大 ? (可 以 假设 成 分 密度 的 重 炙 不 很 嵌 重 .) 

Cc) 利用 (b) 中 选 出 的 4 个 初始 点 ,对 所 有 的 200 PREAH HERA. (注意 ,如 有 
4 个 初始 点 怡 巧 来 自 与 不 同 的 分 布 ,要 重新 选择 使 得 至 少 有 两 个 点 来 自 于 同一 分 
布 。) 

Cd) 现在 假设 存在 一 些 标记 过 的 信息 ,特别 是 4 个 初始 点 来 自 于 不 同 的 分 布 。 在 这 个 条 ” 
件 下 重新 对 200 个 样本 进行 kx- 均 值 聚 类 . 

Ce) 根据 (c) 和 (d) 中 的 结果 讨论 少量 标记 信息 在 聚 类 中 的 价值 。 
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10.5 节 
6. 按照 下 面 的 方法 ,用 无 监督 册 叶 斯 学 习 去 估计 一 个 正 态 分 布 的 均值 。 
(a) 在 一 10 委 z 委 十 10 上 均匀 采样 获得 30 个 样本 的 集合 人 DD， 
(b) 假 设 DD 中 的 样本 来 自 于 一 个 方差 已 知 均值 未 知 的 正 态 分 布 p(x) ~N (4,2)。 相 应 
地 在 式 (42) 中 参数 9 就 是 这 里 的 标量 uw, BIH p(x) 是 一 10 达 4 过 十 10 上 的 均 
们 了 苹 数 ,请 画 出 曲线 图 表示 分 别 取 k==0,1,2,3,4,5,10,15,20,25,30 时 的 后 验 概 
OREBE POISAS Hl 上 的 均匀 函数 ,请 重复 (b) 中 的 操作 ,注意 要 使 
用 相同 的 样本 序列 。 
Cd) 在 (b) 和 和 (c) 中 获得 的 结果 是 否 在 k 较 小 时 相同 ? REI JER? 并 解释 原因 
.请 按照 下 面 的 步骤 写 出 一 个 判决 导向 聚 类 的 算法 程序 ,该 算法 与 上 -均值 算法 比较 相 
似 。 
Ca) BC ,在 三 维 单位 立方 体 0 委 z 委 1 一 1,2,3 内 均匀 采样 ,取得 n=1000 个 样本 点 ， 
样本 集合 为 人。 
(b) 随 机 选取 c= 二 4 个 样本 作为 初始 聚 类 中 心 m ,7 一 1,2,3,4。 
Cc) 算法 核心 思想 为 : 先 将 每 个 样本 x, 归 人 最 近 的 聚 类 中 心 m 代表 的 类 ,再 将 m 更 新 为 
wi 类 中 所 有 样本 的 均值 ,如 果 连 续 出 现 2 个 样本 类 中 心 都 没有 变化 , 则 结束 算法 。 
(d) 利 用 这 个 算法 画 出 4 个 类 中 心 的 位 置 轨迹 。 
(e) 这 个 算法 的 时 间 性 和 空间 复杂 性 是 什么 ?注意 列 出 所 用 的 任何 假设 。 
10. 6 节 
.通过 下 面 的 方法 了 解 距离 度量 .相似 性 和 聚 类 阔 值 的 作用 。 
(a) 首 先 ,产生 一 个 二 维 的 数据 点 集合 ,该 集合 由 两 部 分 组 成 :Di 含有 100 个 点 ,这 些 点 
到 原点 的 距离 在 3 委 r 委 5 上 均匀 分 布 , 角 度 在 ON << 2m 上 均 色 分布; 类似 ,D; 含有 50 
个 点 ,在 0 委 r 委 2,0 委 0%<2r 上 均匀 分 布 。 全 部 数据 集 D==D1 UD, 
(b) 写 出 一 个 简单 的 取 类 算法 , 当 d(x,x <2 时 ,就 将 x 和 xx 连接 起 来 。9 是 用 户 选 择 
的 参数 ,d(x,x ) 是 Minkowski 距离 ( 式 (49))， | 


d l/g 
d(x, x’) = (> Mex 一 x) 


k=] 


~ 


Oo 


令 g 二 2( 对 应 欧 几 里 德 距离 ) 并 分 别 在 O=0. 01,0.05,0.1,0.5,1,5 下 利用 你 的 算 
法 处 理 数 据 D。 在 每 种 不 同 的 条 件 下 ,请 在 图 上 画 出 所 有 的 150 个 点 并 用 不 同 的 颜 
色 表 示 不 同 的 类 。 

(OS g= 二 1, 重 复 (b) 中 的 操作 。 

(DS q=4,8 2 (b) PHBE. 

(e) 讨 论 距离 度量 是 怎样 影响 你 得 到 的 类 别 数目 的 。 


10.7 $ 
9. 根据 下 面 的 提示 利用 穷 举 搜 索 法 研究 不 同 的 聚 类 准则 。 令 隐 表 示 上 表 中 的 前 7 个 点 组 
成 的 集合 。 


(a) 如 果 规 定 每 个 类 至 少 含 有 一 个 数据 点 ,对 7 个 点 来 说 有 和 多少 种 可 能 的 分 类 方式 ? 
(b) 写 出 程序 穷 举 所 有 可 能 的 方式 ,并 对 每 种 方式 计算 J.( 式 (54)),J,( 式 (68))， 
24-14; (30 (69)) J /一 trLSz!Swj( 式 (70)) 和 |S|/|Sz1( 式 (71))。 找 出 在 每 种 准则 
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a #102 


下 的 最 优 划分 。 


(c) 对 数据 点 进行 白化 变换 (whitening transformation) HER (b) PRAH R. 
(d) 根 据 获得 的 结果 ,讨论 哪些 准则 对 日 化 变换 具有 不 变性 。 


10. 8 节 


10. 


1 


人 -一 


下 面 讨 论 和 迭代 的 最 小 平方 聚 类 算法 获得 的 结果 与 初始 条 件 的 关系 。 实 现 算法 3, 令 
c 二 3 并 处 理 上 表 中 的 数据 。 在 下 面 的 每 一 种 模拟 中 , 列 出 最 终 的 从 类 结果 和 对 应 的 准 
则 函数 的 值 。 

(a)m, (0) =(1,1,1)',m,(0) =(—1,—1,—1)’,m, (0) =(0,0,0)'. 

(b)m, (0) =(0, 1,0. 1,0. 1)’,m,(0) =(—0. 1, —0. 1, —0. 1)*,m; (0) =(0,0,0)', 
Cc)m, (0) = (2,0,2)’,m, (0) =(—2,0,—2)',m, (0) =(1,1,1)". 

(d)m, (0) = (0. 5,1,0. 2)',m;(0) = (0. 2, 1,0. 5)*,m (0) = (0. 2,0. 4,0. 6)", 

(eo) ERLE RRR ATA AIA. 


.9 节 
. 实现 层次 合并 聚 类 算法 (算法 4) 和 根据 聚 类 结 采 绘制 树 图 的 程序 。 依 靠 下 面 给 出 的 


各 种 距离 度量 方式 ,用 你 的 算法 处 理 上 表 中 的 数据 并 绘 出 树 图 。(c==20) 的 相似 性 为 
100, 对 于 一 个 类 (c= 二 1) 的 相似 性 为 0。 

Ca) din ( 式 (79)) 

Cb) dmx ( 式 (80)) 


(ec) day ( 式 (81)) 


— 
Do 


jaunt 
i 


Cd) dman (ZK (82) ) 


. 研究 利用 树 图 判断 最 佳 的 聚 类 数目 。 


(a) 编 写实 现 层 次 聚 类 的 算法 和 绘制 树 图 的 程序 ,从 式 (79) 一 (82) 中 选 一 种 距离 度量 。 

(b) 编 写 程 序 从 每 个 一 维 正 态 plela) ~N), i=l, oc PEE n/c Ph A. A 
该 程序 产生 n=50 个 点 ,对 两 个 类 a =0, = lo == 1 的 每 一 个 产生 25 个 点 。 
令 1 二 4, 重 复 这 些 操 作 。 

(c) 使 用 (a) 中 的 程序 对 (b) 中 的 两 个 数据 集 分 别 绘制 树 图 。 

《d) 相 邻 两 层 对 应 的 相似 性 的 差 是 随机 变量 。 我 们 可 以 假定 它 服从 正 态 分 布 。 假 设 最 恰当 
的 类 别 数目 对 应 一 个 最 大 的 差 , 而 这 个 差 如 果 偏 离 分 布 很 大 ,就 认为 这 个 差 很 重要 。 请 
用 解析 式 表 达 这 个 准则 ,并 据 此 证 明 (b) 中 的 一 个 数据 集 确实 有 两 个 类 。 


. 11 节 
13. 


实现 基本 的 竞争 学 习 聚 类 算法 (算法 6) ,并 按照 下 面 的 提示 处 理 上 表 中 的 数据 。 

(a) 首 先 ,在 每 个 数据 向 量 上 增加 一 维 xo =1 并 归 一 化 到 单位 长 度 。 这 样 ,所 有 的 数据 
点 都 处 在 一 个 超 球体 的 表面 上 。 

(b) 置 c 王 2 ,并 令 初 始 权 值 回 量 等 于 最 先 到 来 的 两 个 模式 。 令 学 习 速 度 ?= 王 0.1。 按 照 
次 序 1,2,… ,20,1,2,… ,20,1,2,… 循 环 地 向 系统 输入 模式 。 

(c) 更 改 学 习 速 度 w, 每 到 来 一 个 样本 ,就 将 速度 乘 以 常 因 子 wc<1, 所 以 学 习 速 度 就 以 指数 衰 
减 。 令 a 二 0. 99, 重 复 (b) 中 的 过 程 。 比 较 分 析 这 个 结果 和 a 二 0.5 时 获得 的 结果 。 
(d) 重 复 (c) ,不 过 模式 的 到 来 是 随机 的 ,每 个 模式 的 出 现 概率 都 是 1/20。 分 析 随 机 到 

来 和 有 序 到 来 对 聚 类 结果 的 影 啊 。 


. 12 节 


.考虑 对 上 表 中 的 20 个 数据 使 用 图 论 聚 类 方法 。 








AEH FORK 中 


(a) 写 出 程序 上 自动 计算 式 (93) 中 的 相似 性 矩阵 S ==[5; |, EX SRT RCA ALE 
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德 距离 小 于 阅 值 do 时 这 两 个 点 是 相似 的。 


(b) 将 你 的 程序 用 于 上 表 中 数据 的 zizs 分 量 。 特 别 , 分 别 令 do =0. 01,0. 05,0. 1, 


0.5,1.0, 请 将 对 应 的 聚 类 结果 写 出 来 。 
(c) 对 上 表 中 的 所 有 数据 (3 个 分 量 都 使 用 ) ,重复 (b) 中 的 操作 。 


10. 13 $ 


15. 利用 主 成 分 分 析 在 二 维 空间 上 表示 上 表 中 所 有 的 三 维 数据 。 本 征 向 量 和 本 征 值 分 别 是 多 少 ? 
16. 在 下 例 中 使 用 独立 成 分 分 析 处 理 盲 源 信和 号 分 离 问 题 。 


(Ca) 根据 信号 源 x1(t) 二 cos(t) 和 xs (t) =e ' 一 5e 分 别 产 生 100 个 数据 对 应 于 := 二 


1,-+,100, Mi a fa S A 


$1 (t) =Q, DX] (1) +0. 223 (t) 
So (4) =0. la, (t) +0. 422 (2) 


(b) 写 出 基于 式 (105) 和 (C48) 的 实现 独立 成 分 分 析 的 程序 ,用 于 求 W Aw. See 
) , 偏 置 向 量 为 mw 一 | 


0.1 0.3 
W= 

阵 为 (i, 0.2 

10. 14 节 


17. 写 出 实现 MDS 的 程序 。 


(a) 用 你 的 程序 在 二 维 空间 表示 上 表 中 的 三 维 数据 ,使 用 式 (107) 中 最 小 化 J 的 准则 。 


0.01 
一 0， o2) 


在 二 维 图 上 ,给 每 个 点 标 上 1 一 20 的 数字 。 
(b) 采 用 式 (108) 给 出 的 J, HEM. ER (a), 
(c) 采 用 式 (109) 给 出 的 J 准则 ,重复 (a)。 
(d) 依 据 你 得 到 的 结果 ,分 析 3 个 准则 之 间 的 关系 。 
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附录 A 


数学 基础 


模式 识别 的 数学 基础 是 线性 代数 .概率 论 、 信 息 论 和 计算 复杂 度 理论 等 ,这 一 附录 的 目的 
是 给 出 这 些 学 科 的 一 些 重要 的 基本 结论 和 相关 定义 。 在 必要 时 我 们 将 给 出 一 些 直 观 的 解释 ， 
但 不 准备 进行 严格 的 数学 证 明 。 对 于 这 些 结论 的 详细 证 明 , 有 兴趣 的 读者 可 以 参考 附录 末尾 
所 列 出 的 各 种 文献 。 


A.1 符号 和 记号 


本 节 给 出 全 书 用 到 的 数学 符号 及 其 含义 。 此 外 ,还 列 出 许多 特殊 的 变量 和 函数 ,其 定义 和 
用 法 能 够 从 上 下 文中 了 解 。 


变量 ,符号 和 运算 

~ 近似 等 于 

= 恒 等 于 (或 “定义 为 ”) 

oc 与 ….… 成 正比 

co 无 穷 大 

Xa x RUF a 

t<t+] 用 :十 1 来 更 新 女 用 于 算法 中 ) 

lim fex) 4 xz RUF a 时 f(z) 的 极限 

arg maxf (x) 使 f(x) 取 最 大 值 的 的 值 

arg min f(x) 使 f(z) 取 到 最 小 值 的 xz 的 值 

[x | 向 上 取 整 , 即 取 不 小 于 z 的 最 小 整数 (例如 ,[ 3.5 [= 4) 

Lx | ih) F RE BURA AF x 的 最 大 整数 (例如 ,| 3.5 J=3) 

m mod n 取 模 EU m 被 n 除 后 的 余数 (例如 ,7 mod 5 一 2) 

Rand| /,u) 表示 计算 机 程序 中 的 一 个 例 行 程序 ,其 返回 值 为 一 个 位 于 区 间 
[<z<<zv 内 的 随机 数 

In€x) LX e 为 底 的 z 的 对 数 , 或 工 的 自然 对 数 

log(x) 以 10 为 底 的 x 的 对 数 

logs (x) 以 2 为 底 的 x 的 对 数 

expL x | 5x e” eW a Ki 

Of (x) /Ox PRAM f KF x Be ee 

[Fdz f(z) 在 区 间 [a,6] 上 的 积分 ,如 果 没 有 给 出 积分 的 上 下 限 , 则 表示 
Xf r 的 整个 定义 域 进行 积分 

F(zx;0) F E z hh. Xt BREAKER &% 有 时 为 向 量 形式 的 参数 O 


| Q. E. D. (拉丁 语 quod erat demonstrandum 的 首 字 母 缩写 ) ,表示 
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基本 数学 运算 


El f(a) | 
EyL f(z sy) ] 


Varl fC*) | 
VarsL* | 


Qa, 
一 14; 


IT 1a; 
fC) * g(t) 


os RA 
“证 明 完毕 ” 


z 的 平均 值 (这 样 的 z 通常 是 一 个 统计 量 ) 

f(z) 的 期 望 值 (或 称 为 数学 期 望 ), 其 中 = 是 一 个 随机 变量 
多 元 函数 /(z,») 关 于 一 部 分 变量 (这 里 是 >) 的 期 望 值 , 妈 
[Fees PCy dy ,其 中 p(y) 为 y 的 概率 密度 函数 ,结果 为 科 
余 变 量 ( 这 里 是 x) AY PK 

FORDE BREESE] 

NA, Me [aE lD] 


对 a; 从 下 标 1 到 2” 求 和 ,也 就 是 aita 十 … 十 a， 
对 a; 从 下 标 1 到 nn 进行 求 积 ,也 就 是 al Xa XX a, 
FOM gO MBB, S Fg ddr 


向 量 和 竹中 (本 书 所 使 用 的 向 量 和 和 矩阵 均 定义 在 实数 域 上 ) 


Ra 
X,A, 
f(x) 
f(x) 

I 

1, 


diag(a, sdo 9 saa) 


| x || 


At 


A»BoC sD: “*e 


xED 
XED 

AUB 
ANB 


d 维 欧 几 里 德 空间 

粗 体 表示 向量 ( 列 向 量 ) 和 和 卸 阵 

以 标量 x 为 目 变 量 的 问 量 函数 (注意 人 为 粗 体 ) 

以 向 量 x 为 自 变 量 的 向 量 函 数 ( 注 意 人 为 粗 体 ) 

单位 矩阵, 即 对 角 线 元 素 为 工 非 对 角 线 元 素 为 0 WERE 
全 部 i 个 分 量 均 为 1 的 向 量 

Xt FA FEE, BIT AR ECR A QA, 942 °°" Qa 而 其 余 元 素 为 0 
向 量 x 的 转 置 


向 量 x 的 欧 几 里 德 范 数 , 即 Vz tacit + ,其 中 zx; 为 向 
E x 的 第 i 个 分 量 

H Fy 32 56 ME Ccovariance matrix) 

Fae A 的 迹 (trace) , 即 对 角 线 元 素 的 和 

ERF A WIERE 

ERE A KME RE (pseudoinverse matrix) 

矩阵 A 的 行列 式 的 值 (A 必须 是 方 阵 ) 

矩阵 的 本 征 值 Ceigenvalue) 

Fe EY) AS iE [a] Æ C eigenvector) 

欧 几 里 德 空 间 中 第 ; 个 方向 上 的 单位 向 量 


本 书 中 用 手写 体 字 母 表示 集合 或 列表 , 例如 ,数据 集合 
D= {xX1,** Xn) 
表示 元 素 x 属于 集合 D 
表示 元 素 x 不 属于 集合 DD 
合 4A 与 8 的 并 集 , 即 包含 .4 或 8 中 的 所 有 元 素 的 集合 
合 A 与 B 的 交集 , 即 其 中 的 元 素 同 时 在 集合 A 和 集合 8 中 





ID | 


概率 、 分 布 和 计算 复杂 度 


a 
PCs) 
ptr) 
P(a,b) 
p(a,b) 


PrL + | 


p(x | @) 


N(p,0°) 
Np, >) 


U(x Eu) 
U(x; »X,,) 


T(z, 0) 
oC x) 


Ô., 


y 
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个 数 


自然 状态 (state of nature) 

概率 质量 (probability mass ,注意 P HKB) 
概率 密度 (probability density, JER p 为 小 写 ) 

联合 概率 (joint probability) ,也 就 是 同时 取 a Pb 的 概率 
联合 概率 密度 (joint probability density) ,也 就 是 同时 取 a 和 
b 的 概率 密度 

使 得 方 括号 内 给 出 的 条 件 得 以 满足 的 概率 ,例如 PrLz<zo | 
表示 x 小 于 zo 的 概率 

给 定 8 的 情况 下 ,x 的 条 件 概率 密度 (conditional probability 
density) 

AM [eo] Bt (weight vector) ,也 就 是 WOW s we setts Wm)! 
thE pH BK Coss function) ,评价 某 一 判决 带 来 的 损失 程度 的 
代价 函数 (cost function) ,也 称 为 风险 函数 


定义 在 空间 R 上 的 梯度 算 子 ,有 时 也 记 作 grad | 


在 坐标 系 0 下 的 梯度 算 子 ,有 时 也 记 作 graceL，j 


9 的 最 大 似 然 估计 (maximum-likelihood estimate) 

表示 “服从 …… Ayan”, BIN, plz) SN, PER r RAI 

值 为 x AAT EA 0? 的 正 态 分 布 

均值 为 x 和 方差 为 cc 的 正 态 分 布 ,也 称 为 高 斯 分 布 

均值 向 量 为 下 和 协 方差 为 互 的 多 维 正 态 分 布 ,也 称 为 多 维 高 

斯 分 布 

取 值 范围 在 z Gr, 之 间 的 一 维 均匀 分 布 

d 维 均匀 密度 一 一 当 目 变量 的 取 值 范围 为 包含 x 和 x, .的 最 

小 超 立 方 体 ( 其 各 边 与 对 应 的 坐标 轴 平 行 ) 时 为 均匀 和 密度 ,而 

在 这 个 立方 体 之 外 的 概率 密度 为 0 

三 角形 分 布 , 中 心 点 为 4, 完 全 半 宽 度 为 6 

狄 拉 友 函数 ,也 称 为 图 数 (在 信号 处 理 领 域 中 称 为 冲 激 困 

数 ) , 当 rA 时 函数 值 为 0, 在 整个 定义 域 上 积分 值 为 1 

RPA AS WR Phi My 相同 ,其 值 为 1, 否则 0, 即 
1 i=j 


5, = 
0 iFj 
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r(e.) Gamma iW. AE ViGB HW ALS 节 
n! n ARNE, ERE n X (Cn —1) X (Cn —-2) Xo x1 
(= 末世 二 项 式 系数 , 即 从 = 个 对 象 中 任意 选取 * 个 进行 组 合 的 个 数 
(也 记 作 CL), Ath SF P/k! 
OCRCz)) KA ACH) AIK O Bt 
Oh(z)) 函数 h(xz) 的 大 8 阶 
AChCz)) 函数 h(x) 的 大 0 阶 
sup f(x) 了 f(z) 的 值 的 上 确 界 ,也 就 是 f(z) 的 最 小 上 界 或 者 全 局 最 大 
值 
A.2 线性 代数 


A.2.1 符号 和 基础 知识 
向 量 及 其 转 置 ”一 个 4 维 列 向 量 x 及 其 转 置 x' 可 记 为 


x= 和 xf = (x1 x2... x4) (1) 


其 中 ,所 有 分 量 都 取 实 数值 。 
和 矩阵 及 其 转 置 ”一 个 n x d 的 矩阵 M 及 其 4d X2 的 转 置 矩阵 M ' 可 记 为 


Mit mi2 7113 ... Mig 
mı Mo 1023 ... Mad 
M = (2) 
Mni Mm Mn3 ... Mna 
Mii m21 ... Mnl 
Miz 49 。。。 Mn2 
M =f 713) M23 --- Mn3 (3) 
Mid Mod eee Mnd 


也 就 是 说 ,矩阵 M ' 的 第 有 ji 个 元 素 ( 位 于 第 j 行 ,第 i 列 ) 等 于 矩阵 M 的 第 ij 个 元 素 ( 位 于 第 i 
47 ,第 j 列 ) 。 

对 称 和 矩阵 与 反对 称 和 矩阵 一 个 d X d 的 方 阵 ,如 果 其 元 素 满 足 ms 一 zz，* 则 称 为 对 称 和 矩阵 ;一 
Pd x d 的 方 阵 , 如 果 其 元 素 满 足 mi 一 一 zi，* 则 称 为 斜 对 称 矩 阵 或 反对 称 和 矩阵 。 

FRIERE 一 个 矩阵 如 果 对 所 有 的 i 和 7 ,都 有 元 素 m5 之 0, 则 这 个 矩阵 被 称 为 非 负 和 矩 阵 。 
单位 矩阵 I 这 是 一 种 非常 重要 的 和 矩阵 , 它 必须 为 方 阵 ,其 对 角 线 元 素 均 为 1, 非 对 角 线 元 素 均 
为 0。 有 时 也 用 克 罗 内 克 8 符号 来 定义 单位 矩阵 的 元 素 : 


上 i=j 
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XT FA jE 非 对 角 线 元 素 均 为 0 的 矩阵 称 为 对 角 和 矩阵 。 也 记 作 diag(m 97722 9° ;Naa ) LP 


向 量 或 矩阵 的 相 加 ” 疝 量 或 矩阵 的 相 加 即 对 应 元 素 相 加 。 参 与 运算 的 两 个 向 量 的 维 数 或 矩阵 
的 大 小 相同 。 
和 矩阵 与 向 量 的 相 乘 ”和 矩阵 与 向 量 可 以 相 滋 ,MXx 一 y, 可 表示 为 
X 
Ml M2 ... Mid M yı 
Mo, Mn ... Mog . y2 
. . , ”上 三 ， (5) 
Mni Mn2 ... Mond : Yn 
Xd 
其 中 
= Yomi (6) 


注意 矩阵 M 的 列 数 必须 等 于 向 量 x CIT BO. Sb. i REE M 不 是 方 阵 (n 关 4d), 则 向 
量 y 与 向 量 x 的 维 数 将 不 等 。 

A.2.2 向 量 内 积 

RAR ”两 个 具有 相同 维 数 的 向 量 x Sy 的 内 积 记 为 x'y, 这 是 一 个 标量 : 


d 
xy 一 》 xyi 一 了 X (7) 
i=! 
AR ABA ER BRR AR cA x: y ERAP EEX y> Ra, y). 
欧 几 里 德 范 数 向 量 的 欧 几 里 德 范 数 也 就 是 向 量 的 长 度 ,定义 为 
Ixi = Vx'x (8) 
如 果 一 个 向 量 x 满足 x|j| = 二 1, 则 称 这 个 向 量 是 归 一 化 的 (normalized)，。 
两 个 向 量 的 夹 角 ”两 个 4 维 向 量 的 夹 角 定义 为 
__ xy 
TEXTE Hyd 
由 上 式 可 见 , 癌 量 的 内 积 是 两 个 向 量 共 线性 的 度量 一 一 自然 地 说 明 向 量 之 间 的 相似 性 。 特 别 
当 x'y 二 0 时 ,这 两 个 向 量 是 正 交 的 。 当 xy = 三 由 xl jy 时 ,这 两 个 向 量 是 共 线 的 。 
由 于 对 于 任意 角度 2 都 有 |cosll 委 1 ,从 式 (9) 立 即 可 以 得 到 柯 西 - 施 瓦 茨 不 等 式 (Cauchy- 


Schwarz inequality) 


(9) 


Ixy} < xI] Hy (10) 
r aE AA 
线性 无 关 与 线性 相关 对 于 一 组 给 定 的 向 量 {xi ,xs,… ,x,) ,如 果 其 中 不 存在 任何 一 个 能 被 表 


示 成 为 其 余 向 量 的 线性 组 合 的 向 量 ,那么 我 们 称 这 组 向 至 为 线 性 无 关 的 ;反之 , 则 称 这 组 向 量 
为 线性 相关 的 。 非 形式 地 说 ,一 组 d 个 线性 无 关 的 a 维 向 量 能 “ 张 成 ”(span) 一 个 d 维 向 量 空 
间 。 也 就 是 说 ,这 个 空间 中 的 任意 向 量 都 可 以 表示 为 这 些 线性 无 关 向 量 的 线性 组 合 。 
A.2.3 向 量 外 积 

两 个 向 量 的 外 积 ( 也 称 作 和 矩阵 积 或 二 元 积 ) 定 义 为 一 个 矩阵 ; 
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Xi Xi¥1 X1y2 ... XlYn 
i X2 X2yY1 X2y2 ... Xn 

M = xy = . (Yi Y2 --- Yn) = . 7 . (11) 
Xd Xayl Xay2 --. XdYn 


这 样 ,作为 结果 的 矩阵 M 的 元 素 为 :m; =219,;. BRE nAd Hl x,y 的 维 数 不 同 ) 时 M 将 不 
是 方 阵 。 
A.2.4 矩阵 的 导数 
设 f(x) 是 一 个 取 标 量 值 的 函数 ,有 4d 个 自 变量 zx;(i 二 1,2,…,d)。 我 们 用 向 量 x 表示 这 
些 自 变 量 , 即 X= (T1 s223" La)’. PRI 3 fC ) 关 于 目 变 量 x 的 梯度 (或 导数 ) 定 义 为 
af (x) 


gx] 
af (x) 
V f(x) = grad f(x) = a = m (12) 


af (x) 


axg 


mR fb— AA nA BABAR SPARK) HATEN dE x, M 
我 们 用 雅 可 比 和 矩阵 





Af) (x) df (x) 
Ox} a dxd 
Of(x 
J(x) = À ) = : me (13) 
x dfn (x) Ofn{x) 
OX] OX 


表示 上 关于 自 变 量 的 梯度 。 

如 果 这 个 矩阵 是 一 个 方 阵 ,对 应 的 行列 式 (A. 2. 5 节 ) 就 称 为 雅 可 比 行列 式 (或 者 直接 叫做 
雅 可 比 )。 

如 果 和 矩阵 M 的 每 一 个 元 素 都 是 关于 某 一 个 标量 参数 ! 的 函数 , 则 M 对 参数 0 的 导数 为 


ml Amy Omid 
06 a6 e 20 
aM əm dm22 dm2g 
L — ae a6 n. ae (14) 
00 : : i : 
dmy] ðmn2 OM nd 
30 a6 mo 00 


在 A. 2.6 WATT TT HO RE AS et. ERE, A RATT a MOR 
公式 : 
2 Mo = -mM MM (15) 
a0 a0 
考虑 一 个 矩阵 M 和 一 个 向 量 y, 它 们 都 不 依赖 于 x。 我 们 再 给 出 如 下 几 个 求 矩 阵 或 向 量 的 导 
数 的 常用 公式 : 


[Mx =M (16) 


2 yo] = 2 xy] =y (17) 
ox Ox 
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Z xM = [M + M']x (18) 
当 M 为 对 称 矩 阵 时 ( 协 方差 矩阵 的 例子 请 参见 A. 4.9 节 ), 式 (18) 简 化 为 
二 [MD = 2Mx (19) 
泰勒 展开 我 们 首先 回忆 以 标量 z 为 自 变 量 的 标量 函数 (+). CE co HiU A RR MR 
为 泰勒 展开 ) 为 
f(x) = f(x0) + oe (x — xo) + iat | Ce = x0)? + OC — x0)) (20) 














X=XQ 


上 式 中 的 OC ) 表 示 同 阶 无 穷 小 量 , 在 A. 8 市 中 将 进一步 解释 其 意义 。 
类 似 地 ,对 于 一 个 以 向 量 x 为 目 变 量 的 向 量 函 数 f(x) ,在 点 Xo 附近 的 泰勒 展开 式 为 


X=x0 


af | 1 af] 
f(x) = f(xo) + = | (x — Xo) + 5 一 | | (x — Xo) + O(||x — xoll’) (21) 


其 中 第 二 项 的 系数 为 Xb AY FE A] ES, BS I AA xo SA RE 

RITKE A. 8 节 进 一 步 介 绍 这 里 的 O(。) 记 号 和 式 (21) 中 的 函数 的 阶 的 意义 。 
A.2.5 行列 式 和 迹 

一 个 d X d WEE M 的 行列 式 为 一 个 标量 , 记 为 | M|。 和 矩阵 的 行列 式 的 值 能 够 反映 矩 阵 
一 系列 重要 的 性 质 。 例 如 ,假设 我 们 把 矩阵 的 每 一 列 看 成 是 一 个 列 向 量 , 如 果 这 些 列 向 量 不 是 
线性 无 关 的 , 则 |M | 等 于 零 。 在 模式 识别 中 ,我 们 对 协 方差 窍 阵 特别 感 兴趣 。 协 方差 矩阵 
允 表示 一 个 数据 集合 的 二 阶 和 矩 ( 参 见 A. 4.9 节 )。 在 这 种 情况 下 , 协 方 差 矩 阵 的 行列 式 的 绝对 
值 反 映 产生 这 个 矩阵 互 的 数据 集合 的 4 维 超 体 积 (hypervolume) (能 够 证 明 协 方差 矩阵 的 行 
列 式 的 值 等 于 这 个 抢 阵 的 所 有 本 征 值 的 乘积 ,请 参见 A. 2.7 节 )。 如 果 这 个 数据 集合 只 是 包 
含 在 这 个 & 维 空间 的 一 个 子 空间 中 , 则 协 方 差 矩阵 互 的 列 向 量 将 是 线性 相关 的 ,也 就 是 说 | 马 | 
等 于 零 。 另 外 ,如 果 要 求 一 个 矩阵 的 逆 窍 阵 存在 的 话 , 则 这 个 矩阵 的 行列 式 的 值 必须 是 非 零 的 
(参见 A. 2.6 节 )。 

当 维 数 4 较 小 时 ,计算 行列 式 的 值 是 比较 容易 的 。 但 对 于 维 数 4 较 大 的 情况 ,计算 行列 
式 的 值 就 比较 复杂 了 。 例 如 , 当 M 本 身 是 一 个 标量 ( 即 大 小 为 1 x 1 的 矩阵 M, M =M. 
当 M 为 2X2 的 矩阵 时 ， |M | = Mi M2 — M21 M12 0 对 于 任意 维 的 方 阵 的 行列 式 的 计算 ,通常 来 
用 递归 的 子 式 展开 法 ,并 且 这 一 算法 本 身 可 以 用 递归 的 方式 来 实现 。 如 果 M 为 a x dE 
阵 ,我 们 定义 任 一 元 素 mi 的 余子 式 Mj; 为 从 原始 矩阵 M 中 分 别 划 去 位 于 第 i 行 和 第 7 列 的 所 
有 元 素 后 得 到 的 (4d 一 1) X (d 一 1) 的 矩阵 


第 j 列 
mi m2 = Q > Mid 
m2) mn “ &) e Mid 
Mi|; = | | S Eaa | (22) 
© OD OQ OEOD 多 | Rift 
: -Qoe - 
Mai Man “ Q) M da 
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如 果 |M5| 已 经 计算 得 到 ,那么 我 们 有 下 列 公 式 : 
IMI = rt [Mail — ma |My | + ma IMs | — --- + mai |Mail (23) 


注意 其 中 的 符号 是 交错 的 。 
这 一 过 程 可 以 递归 地 进行 ,也 就 是 说 ,行列 式 Mi 本身 也 可 以 用 余子 式 展 开 的 方法 进行 
计算 。 
对 于 3 x 3 的 矩阵 的 行列 式 的 值 , 则 通常 使 用 如 下 的 扫描 公式 来 计算 行列 式 值 : 
my Mn m13 
m2; Mn 123 
m3, M32 M33 


IMI = 








(24) 


= mm22m33 + mm21m32 + M12M23M31 
Mi MnM 一 M1 {N23N32 一 Mį2M21mM33 


也 就 是 说 , 先 对 同一 对 角 线 上 的 3 个 元 素 求 积 , 乘 以 正 负 符 号 ,然后 对 这 些 结果 进行 相 加 。 其 
中 如 果 对 角 线 的 方向 为 从 左上 到 右 下 ,那么 乘 以 正 号 ;如 果 对 角 线 的 方向 为 从 右上 到 左下 , 那 
么 就 乘 以 负 号 。 必 须 再 一 次 指出 ,这 个 扫描 规则 并 不 适用 于 大 于 3X3 的 矩阵 。 

行列 式 的 一 些 其 他 性 质 包 括 :对 于 任意 矩阵 M, 有 |MI|=|M |。 另外 , 当 两 个 矩阵 M 与 
N 的 大 小 相同 时 ,有 |MN|=|M| x |N|。 

对 于 dxd 的 方 阵 , 和 矩阵 的 迹 trLMJ 被 定义 为 主 对 角 线 上 的 元 素 之 和 ， 即 


d 
tr[M] = > Mii (25) 
i=l 


wei BE By 4 Bi SCAU Ze Me RR ESE PY RAR 
A.2.6 EKA 
只 要 一 个 dXd 和 矩阵 MHGARHARYHE. BACH MMR MIRE. CAE 
足 
MM! =I (26) 


我 们 把 标量 C; =(— 1H |M BERTA (cofactor), MA E HER Mi, EERE M 中 的 
PRA 157 的 元 素 所 对 应 的 余子 式 ( 关 于 Mi 的 定义 请 参见 式 (22) ) 。 
矩阵 M 的 伴随 矩阵 记 为 AdjLMD , 它 的 第 i 行 第 7 列 的 元 素 为 矩阵 My 行 i 列 的 余子 式 
Ci , 即 按照 这 个 定义 ,矩阵 M ADEE M 可 写成 
-1 _ Adj[M] 
IM] 
如 果 M 不 是 方 阵 (或 者 由 于 和 矩阵 M Wye ARERR ECE, FBU (27) Be A E E PE 
M- :不 存在 ), 那 么 我 们 通常 使 用 伪 逆 和 矩阵 M EREM., wE MM 是 非 奇 异 的 ( 即 
M ‘M| 40), , 则 和 矩阵 M 的 伪 道 矩阵 定义 为 
MI = [MIM]- MI (28) 


伪 逆 矩阵 能 保证 Mt M=I, (oR DORE RR RARET BANARAS. 
两 个 方 阵 乘积 的 逆 服 从 LMN]-:=N-IM-:!, 这 可 以 通过 右 乘 或 左 乘 MN 证 实 。 | 
A.2.7 本 征 向 量 和 本 征 值 | 
已 知 一 个 4Xd 的 矩阵 M, 一 类 非常 重要 的 线性 方程 组 的 形式 为 


(27) 
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Mx = Ax (29) 
其 中 为 标量 。 上 式 也 可 以 重新 写成 

(M — AI)x = 0 (30) 
其 中 工 是 大 小 为 &xa 的 单位 矩阵 ,0 为 a 维 零 向 量 ( 即 全 部 元 素 为 零 ) 。 线 性 方程 组 (30) 的 解 
向 量 x=e;, 和 对 应 的 标量 系数 4 二 1; 分 别称 作 和 矩阵 M 的 本 征 向 量 和 对 应 的 本 征 值 。 如 果 和 矩阵 
M 为 实 对 称 和 矩阵 ,那么 将 有 d 个 本 征 向 量 {e@ ,es;,…,ezs}( 其 中 可 能 会 有 一 些 相 同 的 本 征 疝 
量 ) ,每 个 本 征 向 量 均 有 一 个 对 应 的 本 征 值 (41,4,,，…,44)}。 任 意 本 征 疝 量 用 和 矩阵 MERRE 

改变 这 个 疝 量 的 长 度 , 而 不 改变 其 方 问 : 
Me, = 1 je; (31) 


如 果 和 矩阵 M 为 对 角 和 矩阵 , 则 其 所 有 的 本 征 向 量 都 平行 于 坐标 轴 。 
一 种 求解 本 征 向 量 和 本 征 值 的 方法 是 求解 特征 方程 
IM — Al] = àf + aà! + --- 4+ ag_jA + aa =0 (32) 
特征 方程 的 各 个 根 ( 可 能 会 有 重 根 的 情况 ) 就 是 本 征 值 4;(i 二 1,2,…,d)。 然 后 对 每 一 个 根 , 我 
们 通过 求解 线性 方程 组 来 得 到 4; 所 对 应 的 本 征 向 量 。。 
本 征 值 的 一 个 重要 性 质 如 下 :全 部 本 征 值 之 和 为 矩阵 的 迹 ,全 部 本 征 值 的 乘积 为 矩阵 的 行 
列 式 的 值 : 


d d 
[M] =$ a 和 Mef fa (33) 
i=l i=] 


如 果 一 个 矩阵 为 对 角 和 矩阵 ,那么 它 的 本 征 值 就 是 对 角 线 上 的 各 个 元 素 ,而 它 的 本 征 向 量 则 是 平 
行 于 各 个 坐标 轴 的 单位 四 量 。 


A.3 拉 格 朗 日 乘 数 法 


我 们 要 求 在 某 些 约束 条 件 下 ,使 标量 函数 f(x) 取 到 极 值 的 自 变 量 ww 的 值 。 根 据 约束 条 件 的 不 
同 ,可 以 分 为 下 列 几 种 情况 :一 个 等 式 约束 方程 的 情况 ,多 个 等 式 约束 方程 的 情况 ,和 多 个 不 等 式 约 
束 方程 的 情况 (KTT 条 件 )。 这 里 我 们 只 介绍 第 一 种 情况 ,其 他 情况 读者 可 以 参见 相关 文献 。 
如 果 约 束 条 件 可 以 表示 为 g (x) = 0 的 形式 ,那么 我 们 可 以 用 如 下 的 方法 求 得 f (x) 的 极 
值 。 首 先 , 我 们 定义 拉 格 并 日 函数 | 
L(x, A) = f(x) + Ag(x) 
其 中 4 称 为 拉 格 朗 日 待定 乘 数 ,也 称 为 拉 格 朗 日 弱 子 。 对 拉 格 朗 日 函数 关于 x 求 偏 导数 ,并 令 
其 值 为 零 : 


(34) 





OL(x, À) _ Af (x) 4 2800 _ 
Ox ox ax 
这 样 我 们 就 把 约束 条 件 下 的 最 优化 问题 转化 为 无 约束 的 方程 求解 问题 。 
通过 求解 方程 (35) ,就 能 够 得 到 4 的 值 及 相应 的 极 值 点 xo( 通 篆 情 况 下 ,49g/ex RAS). 
然后 ,把 x 代入 这 个 函数 f(x) ,我 们 就 能 够 得 到 约束 条 件 下 的 f(，) 的 极 值 。 


0 (35) 
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A.4 概率 论 


A.4.1 离散 随机 变量 
让 zc 表示 一 个 离散 随机 变量 ,能 够 取 集 合 Y= (uv， n) PRERE AFE). R 
们 记 T£ 取 值 v; 的 概率 为 P:: 


pi = Prix = v;] i=1,..., m (36) 
这 样 定义 的 概率 p: 必须 满足 下 列 两 个 条 件 : 
Pi>0 和 J pi=1 (37) 
i=l 


有 时 候 , 用 概率 质量 函数 PORRE { Dis Potts pm) 集合 更 为 方便 。 同 样 ,概率 质量 函数 
也 必须 满足 下 列 条 件 : 
P(x) > 0 和 >》PoD=1 (38) 
XEX 


A.4.2 数学 期 望 
随机 变量 r 的 数学 期 望 ( 也 称 作 期 望 值 、 均 值 或 平均 值 ) 定 义 如 下 : 


m 


Elx]=u= 2 xP(x) =) vip (39) 


XE i=] 

如 果 把 概率 质量 函数 看 作 是 一 系列 的 点 质量 ,每 一 个 点 x = vi 具有 质量 p;, 则 数学 期 望 值 x 
就 相当 于 这 些 点 的 质心 。 或 者 ,我们 也 可 以 把 数学 期 望 人 4 看 作 是 许多 样本 点 的 代数 平均 值 。 

更 一 般 地 ,如 果 是 关于 自 变 量 z 的 任何 形式 的 孙 数 , 则 函数 f (x) 的 数学 期 望 由 下 式 定 

ELFEN = >》 FO) PC) 


xEX (40) 


注意 , 式 (40) 表 明 数 学 期 望 具有 线性 性 质 。 也 就 是 说 ,如 果 ,os 为 两 个 任意 的 常数 , 则 下 式 
恒 成 立 : 
Ela fix) + a2 fa(x)) = Elfi (x)] + MET f2(x)] — 41) 


有 了 时候, 把 E 看 作 一 种 算 子 ( 即 (线性 ) 期 望 算 子 ) 是 方便 的 。 
有 两 种 重要 的 特殊 数学 期 望 : 二 阶 矩 和 方差 。 它 们 分 别 定 义 如 下 : 


E= >》 > x? P(x) (42) 
xXEX 
Var[x] = o? = Ef(x — 1)] = >》 (x 一 W P(x) (43) 


xEX 


其 中 0o 称 为 随机 变量 xz 的 标准 差 (standard deviation), X # (variance) M U A pE LR & BE 
函数 的 转动 惯量 (moment of inertia)。 方 差 永远 是 非 人 希 的 ,只 有 当 全 部 概率 质量 集中 在 一 点 
时 它 才 取 零 值 。 

标准 差 是 衡量 随机 变量 z 偏离 均值 的 程度 的 一 个 简单 而 重要 的 参数 。 “标准 差 ” 的 字面 
意义 就 表示 随机 变量 zx 偏离 均值 w 的 平均 距离 。 

切 比 雪夫 (Chebyshev) 不 等 式 ( 也 称 作 Bienaymé-Chebyshev 不 等 式 ) 揭 示 了 标准 差 与 
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1Zz 一 中 之 间 的 数学 关系 : 


1 - 
Pr[lx — u| > na] < 一 (44) 
n 


切 比 雪夫 不 等 式 提供 了 一 个 较 宽 松 的 界限 (这 里 必须 要 求 n 宇 1, 否 则 就 没有 意义 )。 对 于 
正 态 分 布 来 说 ,一 个 更 常用 也 更 严格 的 估计 是 :随机 变量 x 落 在 区 间 [w 一 o,y 十 oj 内 的 概率 是 
68%, 落 在 区 间 [y 一 20,y 十 2oj 内 的 概率 是 95%, 落 在 区 间 [y 一 30,y 十 30] 内 的 概率 是 99.7% 
(参见 后 面 A. 4. 12 节 中 的 图 A-1)。 然 而 , 切 比 雪夫 不 等 式 表明 对 于 任意 分 布 的 随机 变量 的 
标准 差 与 散布 程度 之 间 的 重要 联系 。 男 一 方面 , 切 比 雪夫 不 等 式 也 表明 | z 一 w| /c 是 衡量 随机 
变量 x 的 值 偏离 均值 的 程度 的 归 一 化 的 度量 (参见 A. 4. 12 节 )。 

展开 式 (43) 中 的 二 次 式 , 容 易 证 明 下 面 的 有 用 公式 : 


Var[x] = E[x*] — (Ex? (45) 


注意 ,方差 不 具有 数学 期 望 那样 的 线性 性 质 。 特 别 , 如 果 存 在 另 一 个 随机 变量 y> 一 az, 其 中 
为 一 个 常量 , 则 有 Var yj 一 a VarLxj]。 而 且 , 两 个 随机 变量 的 和 的 方差 通常 不 等 于 它们 各 自 
的 方差 的 和 。 然 而 ,在 后 面 我 们 将 会 看 到 , 当 这 两 个 随机 变量 是 互相 独立 的 时 候 , 随 机 变量 的 
和 的 方差 确实 等 于 它们 各 自 方差 的 和 。 

如 果 随 机 变量 xz 服从 简单 的 0-1 分 布 ( 即 z 的 取 值 只 能 为 0 或 1), 则 可 以 求 出 x Alo 的 简 
单 公 式 。 我 们 令 p 二 PrLz 二 1], 那 么 容易 证 明 


=p 和 o = yp -— p) (46) 


A.4.3 成 对 离散 随机 变量 
设 工 与 y 是 两 个 离散 的 随机 变量 ,其 可 能 取 值 的 集合 分 别 为 = { ,ww,… un) AY = 
LWW ,wn}。 这 两 个 随机 变量 的 组 合 (x,y) ,可 以 看 作 是 在 这 两 个 变量 的 二 维 直 积 空间 中 
的 一 个 向 量 ( 或 一 个 点 )。 每 一 个 可 能 的 组 合 (wv,w;) 都 具有 一 个 联合 概率 py =Prlz—v.- 
y 二 wj。 这 样 总 共有 m 个 联合 概率 。 这 些 联合 概率 是 非 负 的 ,并 且 其 和 为 1。 也 就 是 说 可 以 
定义 联合 概率 质量 函数 
P(x,y) 20 利 ` ` P(x, y)=1 (47) 


xEX yey 


KG 4 I E R AR SC SRL RAR Ce WME. PRE KF r A y 的 性 
质 , 无 论 是 这 两 个 变量 各 自 独 立 的 性 质 , 或 者 是 它们 共同 的 性 质 ,都 可 以 根据 联合 概率 质量 机 
数 P(z,y) 来 计算 得 到 。 特 别 ,从 联合 概率 质量 函数 ,我 们 可 以 得 到 如 下 单独 的 边缘 分 布 函 数 
(marginal distribution) ; 


P(x) = 》 P(x, y) 
yey 


Py(y) = > P(x, y) (48) 
XE 
这 是 对 联合 概率 密度 函数 P(z,y) 中 不 希望 出 现 的 那个 自 变量 求 和 得 到 的 。 
如 有 果 保 留 边缘 密度 函数 的 下 标 , 就 是 强调 P, (x) 和 P,(y) 是 两 个 不 同形 式 的 函数 。 在 不 
至 引起 混 消 的 场合 ,常常 省 略 边缘 密度 函数 的 下 标 , 而 把 它们 直接 写作 P(z) 和 Ply), BAM 
能 从 上 下 文 判断 这 时 的 P(z) 和 P(Cy) 实 际 上 指 的 是 两 个 不 同 的 边缘 分 布 范 数 ,而 不 是 代表 自 
变量 取 值 不同 的 同一 个 函数 。 








492 ah RA 


A.4.4 统计 独立 性 

随机 变量 x 和 yy 被 称 为 统计 独立 的 , 当 且 仅 当 下 式 成 立 : 

P(x, y) = P, (x) P, (y) (49) 

对 于 统计 独立 的 含义 ,可 以 这 样 来 理解 :假设 p= PrLe=u lec BEN v: 的 时 间 与 总 共 时 间 
的 比 ,gj 二 Pr[y 二 wj 是 y 取 值 为 w; 的 时 间 与 总 共 时 间 的 比 。 考 虑 当 Z 取 值 为 w 时 的 情况 。 
如 果 这 时 y= w 的 时 间 的 比 仍旧 为 qj, 那么 即使 知道 z 的 值 ,也 不 能 给 我 们 提供 任何 关于 此 
时 y 取 何 值 的 信息 。 也 就 是 说 ,y 的 取 值 不 依赖 于 z。 最 后 ,如 果 工 和 y 是 统计 独立 的 , 则 Cw;， 
ww 同时 出 现 的 时 间 的 比 , 等 于 它们 各 目 时 间 比 的 乘积 pig, 二 PCv)P(w)。 我 们 将 在 A. 4. 6 
节 进 一 步 讨 论 这 个 问题 。 
A.4.5 两 个 自 变量 的 函数 的 数学 期 望 

作为 A. 4.2 节 的 自然 推广 ,以 两 个 随机 变量 zx,y 为 自 变 量 的 函数 f(zx,y) 的 数学 期 望 被 
定义 为 


Elf. y= D> >| Fx, y)PG, y) (50) 
xEX yey 
与 A.4. 2 节 相 同 ,期 望 算 子 5 在 这 里 也 是 线性 算 子 : 
Elai fix, y) +a: fx, y) = mETfilx, y)] + aE f(x, y)] (51) 


zy) 的 均值 (一 阶 矩 ) 和 方差 (二 阶 矩 ) 定 义 如 下 : 


ux = Elx] = $ $ xPO, y) 


XEX yey 


uy = ELy] = $ > yP, y) 


xEX yey 


o? = Varfx] = El — u) = D> DO — Hx) PG, y) 


xEX yey 


oy = Varly] = El(y — wy)" = Y O- wy)? P, y) (52) 


XEX yey 
一 个 重要 的 参数 一 一 zx M y 的 协 方差 (可 以 看 作 "交叉 矩 ”) 定 义 为 
Oxy = El — WO) — uy) = D0 De uO — Hy) POY) (53) 
xEX yey 
如 果 使 用 向 量 记 号 ,那么 等 式 (52) 和 (53) 可 以 记 为 
p= E[x] = >, x P(x) (54) 


xe[ xy} 


Z = E[(x — WX— p)'] (55) 
AP eV) 代表 随 机 向 量 x 的 两 个 分 量 的 取 值 空间 ,jp 为 x ORS E AA E ECG 
A.4.9 节 )。 
协 方差 可 以 衡量 随机 变量 sc Sy 之 间 的 统计 独立 程度 。 如 果 工 与 > 互相 统计 独立 , 则 必 
ER dop =0. “4 0o, =0 时 ,我 们 称 随 机 变量 zx 与 y 之 间 是 不 相关 的 。 但 这 并 不 意味 着 随机 变 
量 z 与 y 之 间 是 统计 独立 的 。 这 里 我 们 给 出 一 个 例子 。 考 虑 联合 概率 密度 函数 
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l 2 2 
rw x 十 y <1 
0 其 他 
那么 我 们 可 以 证 明 0 =018 f(z)f,(y) 关 f(zx,y)。 也 就 是 说 ,这 时 工 与 y 不 相关 ( 特 指 线性 
相关 ) ,然而 却 不 是 统计 独立 的 。 
只 有 当 (z,y) 服 从 多 维 正 态 分 布 时 ,不 相关 才 等 价 于 统计 独立 。 在 实际 应 用 中 ,为 了 简化 
问题 ,不 相关 常常 被 看 作 统计 独立 。 
如 果 随 机 变量 y= 一 ax, 其 中 a 是 一 个 确定 的 常量 ,这 时 xz 与 y 之 间 的 统计 依赖 性 最 大 。 容 
多 证 明 此 时 有 0 二 ao: 。 也 就 是 说 , 当 Sy 同时 增加 或 同时 减 小 时 , 协 方差 为 正 数 ,反之 则 
为 负数 。 
对 于 0; ,0, ,oo 之 间 的 关系 ,有 一 个 非常 重要 的 柯 西 - 施 瓦 茨 不 等 式 
ory < oroy (56) 
X—-ASARUF MBAS RO'y)’< xl? ly |? (由 前 面 的 式 (10) 得 到 )，。 
随机 变量 x Sy 之 间 的 相关 系数 定义 为 
p= 5.0, (57) 
相关 系数 可 以 看 作 是 归 一 化 的 协 方差 。p 的 取 值 范围 为 [一 1, 1]。 如 果 p= 十 1, 则 zz 与 y 达 
到 正 的 最 大 相关 ,如 果 p= 二 一 1, 则 zxz 与 y 达到 负 的 最 大 相关 。 如 果 o=0, 则 z 与 y 不 相关 。 在 
实际 应 用 中 ,为 了 简化 问题 ,往往 用 相关 系数 的 绝对 值 小 于 某 一 个 阅 值 (比如 0.05) 来 判断 是 
否 不 相关 。 当 然 , 这 个 净值 的 选取 与 具体 的 应 用 场合 有 关 。 
如 果 r5 y 是 统计 独立 的 , 则 对 于 它们 的 任意 函数 f(x) 与 gCy) ,根据 统计 独立 和 数学 期 
望 的 定义 ,我们 得 到 
El f(x)e(y)] = ELf @IEle(y)] (58) 
注意 ,如 果 令 oD) =ru g =y— by KPRBARARUA, OR x A y 是 统计 独立 的 , 那 
A 
oy =E C> p) (y— py) ]=ELr— p JELy ~u, ]=0 
A.4.6 条 件 概率 
如 果 两 个 随机 变量 不 是 统计 独立 的 , 则 当知 道 其 中 一 个 变量 的 取 值 时 ,就 能 使 我 们 获得 另 
一 个 变量 的 更 好 估 值 。 这 可 由 下 面 给 定 变量 y 以 后 变量 z 的 条 件 概率 公式 来 表示 : 
Prlx = vi, y = wj] 





Pr[x = vily = wi] = Pry = w) (59) 
— dJ 
或 者 ,用 概率 密度 函数 表示 为 
P(x, y) 
P = 
(xiy) PO) (60) 


注意 ,如 果 z Sy 是 统计 独立 的 , 则 PCzly)=PCz)。 也 就 是 说 ,在 z 与 y 是 统计 独立 的 情况 
下 ,知道 了 y 的 值 并 不 能 给 出 任何 有 关 z 的 信息 ,这 种 信息 不 能 从 边缘 分 布 PCz) 获 得 。 

例如 ,考虑 zx y 都 只 能 取 值 0 或 1 的 情况 ,假定 随机 产生 n 对 xzy 的 值 ,n 是 一 个 很 大 的 
BX & ng HEIR XSi y=j 的 次 数 。 这 样 , 组 合 (0,0) 出 现 zaoo 次 ,组 合 (0,1) 出 现 ok AAC, 
0) 出 现 nwo 次 ,组 合 (1,1) 出 现 52 次 ,等 等 ,同时 必须 满足 Noo 十 ?ol FN +N =n. 现在 ,考虑 x 
与 y 同时 取 1 的 次 数 占 y 取 值 为 1 而 xz 取 任 意 值 的 次 数 的 比 : 
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my nu/n 


no + A11 7 (noi + ni)/n 


当 y=1 和 很 大 时 ,上 式 即 近似 为 P(x|y) 的 值 。 事实 也 是 如 此 ,因为 n/n EWS T PG, 
y), W Co, Hm) /n4n 很 大 时 近似 等 于 已 (y) 。 
A.4.7 全 概率 公式 和 贝 叶 斯 公式 

如 果 事 件 A 在 某 一 时 刻 可 能 有 m 种 不 同 的 发 生 方 式 Al,A,，,…,Aa( 称 作 子 事件 ) ,其 中 
各 个 子 事件 两 两 互 斥 , 即 不 可 能 同时 发 生 A MAGE) ,那么 事件 A 发 生 的 概率 等 于 这 些 子 
事件 各 自发 生 概 率 的 和 。 这 就 是 全 概率 公式 。 特 别 地 ,如 果 随 机 变量 y 在 某 一 时 刻 取 某 一 特 
定 值 有 m 种 方式 ,与 此 同时 ,z 可 能 的 取 值 为 (vi sust Un ,那么 根据 全 概率 公式 ,有 

PO) = > Pœ, y) (62) 


xEX 





(61) 


也 就 是 说 ,P(y) 就 是 联合 概率 PCz,y) 对 所 有 的 可 能 的 z 值 求 和 。 从 条 件 概率 的 定义 ,我 们 可 
以 得 到 


P(x, y) = PO|x)P (x) (63) 
交换 公式 (63) 中 的 zx 和 yy, 经 过 简单 推导 ,可 得 
P(x\y) = = aa) (64) 
或 者 用 文字 表述 为 
pepp- DARE ARES 
这 些 术语 在 第 2 章 有 详细 的 讨论 。 


公式 (64) 被 称 作 贝 叶 斯 公式 。 注 意 公式 右边 的 分 母 项 ,是 对 所 有 可 能 的 工 对 应 的 分 子 项 


进行 果 加 的 结果 ,实际 上 就 是 P(y)。 之 所 以 写成 公式 (64) 的 形式 是 为 了 强调 公式 右边 各 项 都 


是 关于 z 的 函数 ,以 z 为 转移 。 如 果 把 zx 当 作 重 要 的 自 变 量 , 则 后 验 概率 P(x|y) 将 由 分 子 
P(y|zx)P(z) 完 全 确定 ,而 分 母 项 实际 上 可 以 看 作 是 一 个 归 一 化 系数 ,有 时 称 作 “证 据 ” 因 子 


(evidence) ,用 来 保证 在 y 给 定时 ,PCz|ly) 对 所 有 可 能 的 z 值 其 和 为 1, 即 2 P(xly) =1. 


对 贝 叶 斯 公式 的 标准 解释 如 下 : 它 转化 统计 联系 ,把 PODRED Pily). 如 果 我 们 
把 xz 看 作 是 “原因 ”, 把 y 看 作 是 “结果 ”。 那 么 如 果 原 因 z 的 值 已 经 给 定 , 则 我 们 显然 能 确定 
这 时 某 一 特定 的 结果 y 出 现 的 概率 一 一 P(y|z) 就 是 关于 这 个 条 件 概率 的 精确 描述 。 但 如 果 
我 们 首先 观测 到 的 是 结果 y, 这 时 我 们 无 法 直接 确定 引起 这 个 结果 的 原因 x 的 值 ,因为 可 能 有 
多 个 原因 z, 均 能 产生 同样 的 结果 >。 然 而 , 册 叶 斯 公式 告诉 我 们 ,只 要 已 经 知道 条 件 概率 
Pl(y|z) 和 先 验 概率 P(z)( 即 在 观测 到 > 之 前 关于 z 的 概率 分 布 的 知识 ), 我 们 就 能 够 求 得 
Ptzly). 

换 句 话说 , 贝 叶 斯 公式 告诉 我 们 在 观测 到 y 值 之 前 ,如 何 把 关于 xz 的 先 验 概率 P(z) 转 化 
为 观测 到 y 值 之 后 的 关于 z 的 可 能 分 布 的 后 验 概率 P(z|y)。 也 就 是 说 任何 对 y 的 观测 都 将 
增加 这 时 我 们 对 z 的 真正 分 布 的 知识 。 

A.4.8 随机 向 是 
把 前 面 所 述 各 个 结果 从 两 个 变量 Tsy 的 情况 扩展 到 4 个 变量 Xis T p **" Ta 的 情况 。 为 便 
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于 表述 ,我们 采用 向 量 记 号 x== (xi ,xs,，… ,zs}'。 如 同 公式 (47) ,联合 概率 质量 函数 P(x) 满 足 

P(x) 之 0 和 P(x) 二 1, 其 中 的 求 和 是 对 向 量 x 所 有 可 能 的 值 进行 的 。 注 意 由 于 x 是 一 个 4d 维 

四 量 , 所 以 联合 概率 质量 函数 P(x) 可 能 是 一 个 非常 复杂 的 多 变量 函数 P(xi ,zs，…,xs)。 然 

而 ,如 采 x 的 各 个 分 量 统 计 独 立 , 那 么 这 个 联合 概率 质量 聘 数 就 变 成 下 面 的 比较 简单 的 形式 ， 
P(x) = Pa (x1) Py, (42) «+» Po, (Xa) 


d 
= | | Pu) 
i=l 


在 这 里 我 们 特别 注 明 各 个 边缘 分 布 函数 的 下 标 ,是 为 了 强调 每 个 分 量 的 概率 分 布 函数 通常 具 
有 不 同 的 形式 。 如 果 已 知 联合 概率 分 布 函数 , 则 每 一 个 分 量 的 边缘 分 布 函数 P。(zi) 可 以 通过 
对 其 他 所 有 分 量 求 和 来 得 到 。 除 了 这 些 单 变量 的 边缘 分 布 函数 ,其 他 形式 的 边缘 概率 分 布 函 
数 可 以 根据 全 概率 公式 来 得 到 。 例 如 ,假定 知道 联合 概率 密度 函数 P(Cz ,zs ,zi 245), ER 
PCa, > 24) ,我 们 可 以 用 下 式 计 算 : 


(65) 


P(xi, x4) = 2 2 》 Pou, x2, x3, X4, x5) (66) 
X2 X3 Xs 
可 以 定义 多 种 不 同 的 条 件 分 布 ,如 P(x, 9X2 | z3; ) 或 P( xz lay 9X4 9X5) ,等 等 。 例如 
_ PO, X2, x3) 
已 (xl X2|x3) = pa) (67) 


其 中 ,等 式 右边 的 各 项 都 可 以 从 联合 概率 分 布 P(x 9X29%3 s T49 T5 ) 对 不 要 的 变量 求 和 计算 得 
到 。 如 果 用 向 量变 量 代替 标量 变量 ,条 件 分 布 可 以 写成 





P(xi|x2) = te (68) 
类 似 地 , 癌 量 形式 的 贝 叶 斯 公式 变 成 
| P(X2|x)) P(x) 
P = eae 
xi ixa) $ Pax) P(x) (69) 


A.4.9 期 望 值 均值 向 量 和 协 方差 矩阵 
癌 量 随机 变量 x 的 数学 期 望 也 是 一 个 向 量 , 其 各 分 量 是 原 x 的 各 个 分 量 的 数学 期 望 。 如 
R f(x) fe d 维 随机 变量 x 的 nn 维 向 量 孙 数 


fi (x) 
fox) 

f(x) = . (70) 
fa) 

则 其 数学 期 望 定义 如 下 ， 
E[ fi (x)] 
E{ f2(x)] i 
= = 》 f(x) P(x) (71) 
El fn (x)] 


特别 ,随机 变量 x 的 均值 向 量 & 定义 为 








a 
|. 
~ 
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Elx] Hı 
E[x2] 
p= E{x] = K = É = > xP) (72) 
E[xg] Ha 
同样 , 协 方差 矩阵 的 第 ?7 TCR oj 被 定义 为 £i Mr; 的 协 方差 : 
oj, = Oji = El: ~ uix; 一 风门 i,j=l...d (73) 
与 我 们 看 到 的 具有 两 个 变量 的 式 (53) 相 同 。 因 此 ,我 们 可 以 得 到 其 扩展 形式 : 
Ela 一 ADCc 一 AD] Eli ~ ui) ~ KH2)] E[(x1 — Ki)(xa — Mad] 
> Eix — 2X1 一 AD] Elx — 2) (X2 — H2)] E[(x2 — 12)(xa — Ha)] 
Eta pa) pd] Elza — Maden — aa). Elta — pa) xa — pa)] 
Cil} 012 - Cid of 012 + Oid 
_ 021 922 - Od _ O21 03 - Od 
fob: | : (74) 
Odi Od2 - Odd Odi Od2 ... oF 
我 们 可 以 用 向 量 积 (x 一 4) (x 一 4K)' 表示 协 方差 矩阵 : 
X = El(x — px — 1)'] (75) 


HSH DEWAR ARR x 的 每 一 个 分 量 各 自 的 方差 ,是 非 负 的 ; 非 对 角 线 
元 素 是 x 的 各 个 分 量 的 协 方差 ,可 能 为 正 ,也 可 能 为 负 。 如 果 各 分 量 统计 独立 ,那么 非 对 角 线 
元 素 为 零 , 协 方差 算 阵 就 成 为 对 角 和 矩阵 。 协 方差 矩阵 的 另 一 个 重要 性 质 是 半 正 定性 , 即 对 于 任 
意 的 向 量 w, 标 量 wEw 宇 0。 可 以 证 明 , 这 与 要 求 协 方差 矩阵 的 各 本 征 值 为 非 负 是 等 价 的 。 
A.4.10 连续 随机 变量 
如 果 随 机 变量 x 是 在 连续 域 取 值 ,那么 讨论 r 取 某 个 特定 值 (比如 2. 5136) 的 概率 是 没有 
意义 的 ,因为 r 取 任 意 的 某 个 确切 值 的 概率 都 几乎 为 零 。 我 们 更 关注 的 是 随机 变量 z BER 
个 区 间 ( 比 如 [a, 妇 ) 内 的 概率 。 因 此 ,我们 在 这 里 不 直接 使 用 概率 质量 函数 PO) ,而 使 用 概率 
密度 函数 p(x)。 概 率 密度 函数 p(x) 具 有 如 下 性 质 ，: 
b 
Pr[x € (a,b)] = J p(x) dx (76) 
之 所 以 使 用 “密度 ”一 词 是 因为 这 个 定义 类 似 于 物理 学 中 关于 物质 的 密度 的 定义 。 如 果 我 们 考 
虑 一 个 小 区 间 (a,a 十 Az) ,在 这 个 小 区 间 内 概率 密度 p(x) 近 似 于 常数 p(a) ,那么 ,p(a) 一 
Pr[zeE(aya 十 Az)]/Az。 也 就 是 说 ,在 点 zx 一 a 处 的 概率 密度 就 是 单位 距离 上 的 概率 质量 Pr[z 
E(a,a 十 Az)]。 由 此 推 知 概率 密度 函数 必须 满足 


Oo 


/pw = ł 
如 果 我 们 用 积分 代替 求 和 ,那么 前 面 大 多 数 的 对 离散 随机 变量 的 定义 和 公式 都 能 推广 到 
连续 的 情况 。 特 别 , 连 续 随 机 变量 的 数学 期 望 , 均 值 和 方差 的 定义 分 别 如 下 : 


p(x)>0 和 (77) 








EL f(x)] = J F(x) p(x) dx 


u = Ejx] = f xp(x) dx (78) 


oO 


Varlx] = 0? = Elx — p)? = J (x — p)? p(x) dx 


如 同 公式 (45) 一 样 ,方差 也 满足 =E[x?] 一 (E[zx])?。 
对 连续 的 多 个 随机 变量 的 情况 也 可 以 进行 类 似 的 处 理 。 如 果 用 x 表示 这 些 随 机 变量 组 成 
的 随机 向 量 ,那么 概率 密度 函数 p(x) 必 须 满足 


p(x) >0 和 [ew dx= 1 (79) 
注意 ,这 里 的 dx 实际 上 是 dz1dzxs…dxs ,积分 是 d 重 积分 对 应 的 数学 期 记 
EI] = J J a J f(x) p(x) dxıdxz2-- -dxa = J f(x) p(x) dx (80) 


一 Co 一 oo 一 Do 


如 有 果 分 别 令 上 面 的 函数 了 f(，…) 的 具体 形式 为 x 和 (x 一 上 (x 一 总: 那么 我 们 可 以 得 到 x 的 均值 u 
和 协 方差 矩阵 互 如 下 : 


oo 


p= E[x] = f xe ax 


— 00 


(81) 


5 = Ex — px — p)'] = J (x — )(x — ps)! p(x) dx 


如 有 果 连 续 随 机 变量 x 的 各 分 量 统计 独立 ,那么 这 时 候 联合 概率 密度 函数 p(x) 能 够 分 解 为 
d 
p(x) = | | ps, (x) (82) 
i=l 
同时 , A EEE E ARAE. 
条 件 概率 密度 函数 的 定义 与 条 件 质量 函数 的 定义 类 似 。 例 如 , 当 y AE a 的 概率 密度 


为 
— PO) (83) 
ply) = OWO) 
| (84) 


f P(y|x) p(x) dx 


一 Oo 


619 
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类 似 地 ,向 量 形式 下 的 贝 叶 斯 公式 为 paly = Lew ， 
__ Ply|x) p(X) dx 
有 时 我 们 需要 计算 函数 fc. ,zs) 中 一 个 自 变量 的 数学 期 望 ,这 种 情况 下 必须 显 式 写 明 下 
标 ,如 


Ex Af (x1, Xx2)] = J f x1, x2) p(X1) dx, (85) 


A.4.11 独立 随机 变量 和 的 分 布 

在 实际 应 用 中 ,我 们 通常 遇 到 这 样 的 情况 : 已 知 两 个 统计 独立 随机 变量 xz 和 >y 各 自 的 概 
率 密度 函数 ,我 们 需要 知道 它们 的 和 z=xz 十 y 的 概率 密度 函数 。 容 易 推 导出 这 个 和 的 均值 和 
方差 : 


Hz = E(z] = E[x + y] = E[x] + Ely] = Ux + Hy 
o? = El(z — u:)?] = El(x + y — (hx + uy)? = E — ux) + Cy ~ uy)’ 


= E[(x — ux] + 2ER — ur) — uy] HELO — By)? 
Se. CI / 
=0 
= E[(x — u:}] +0 +ElO — wy)*] 
=o; +o; 


其 中 ,我 们 利用 了 这 样 的 性 质 : 由 于 xz Ay 统计 独立 ,所 以 它们 的 协 方差 ELz 一 pjELy 一 4 IA 
零 。 也 就 是 说 , 当 xz 和 y 统计 独立 时 ,它们 的 和 的 方差 等 于 各 自 的 方差 的 和 。 但 如 果 之 和 y 
并 不 是 统计 独立 的 ,那么 这 一 结论 不 成 立 。 

DSK x Al y 的 概率 密度 函数 求 = 王 z 十 > 的 概率 密度 函数 ,稍微 复杂 一 些 。z 落 在 某 个 区 间 
[5,5 十 Azj] 内 的 概率 可 以 这 样 求 得 : 当 Az 很 小 时 ,> 在 这 一 区 间 (zy 平面 内 的 直线 z 十 > 一 5 和 
xt y= b+ Az 之 间 的 区 域 ) 内 的 概率 可 以 通过 对 联合 概率 密度 函数 pC, y) = p: (2) p, CK 
积分 获得 。 所 以 


(86) 


DO 


| pitea-| f 


p(x) p(t — x) a Az (87) 


所 以 ,连续 随机 变量 z 的 概率 密度 函数 为 连续 随机 变量 x 和 y 各 自 概 率 密 度 函 数 的 卷 积 : 
p(z) = px(X) * py(y) = J pre — x) dx (88) 

上 述 的 这 些 结论 可 以 推广 到 多 个 随机 变量 相 加 的 情况 。 对 于 & 个 统计 独立 的 随机 变量 zi， 
X 9 9 hg ;不 难 证 明 下 列 结 论 : 

。 它们 的 和 的 均值 等 于 它们 各 自 均 值 的 和 。( 事 实 上 ,这 一 结论 不 需要 满足 统计 独立 条 

件 。) | 
。 它们 的 和 的 方差 等 于 各 自 方差 的 和 。 
。 它们 的 和 的 概率 密度 函数 为 各 自 的 概率 密度 函数 的 卷 积 ,也 就 是 说 下 式 成 立 : 


p(z) = p(X) * P(X2) w+ + x p(xa) (89) 
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A.4.12 正 态 分 布 

概率 理论 中 最 重要 的 结论 之 一 就 是 中 心 极 限定 理 。 这 个 定理 简 述 如 下 :在 各 种 条 件 下 , 独 
立 的 4 个 随机 变量 的 和 的 概率 分 布 接近 于 一 种 被 称 为 正 态 分 布 ( 或 称 为 “高 斯 分 布 ”) 的 极限 
形式 。 

正 因 为 如 此 , 正 态 分 布 在 理论 与 实际 应 用 中 都 是 相当 重要 的 。 

在 一 维 情况 下 , 正 态 分 布 的 概率 密度 函数 定义 为 


_ 2 fr 
e I /2((x—p)* /o*) (90) 





p(x) = 


正 态 概率 密度 函数 通常 也 被 描述 成 “ 钟 形 曲线 ”。 

正 态 概率 密度 函数 由 分 布 的 均值 y 和 和 方差 o” 这 两 个 参数 惟一 确定 。 为 强调 这 一 点 ,通常 
WE pL a) ~N( 4,0) EEr 服从 均值 为 x 和 方差 为 of 的 正 态 分 布 ”。 正 态 分 布 的 概率 密度 
函数 关于 均值 对 称 , 最 大 值 出 现在 均值 x 二 x 处 , 钟 形 波峰 的 宽度 与 标准 差 o 成 正比 。 由 式 
(90) 定 义 的 正 态 分 布 中 的 各 参数 满足 下 列 等 式 ， 

Efl] = J p(x)dx = 1l 
E[x] = | xp@mar=u | (91) 


一 Oo 


El(x ~ 1)°] = fo ~ u} p(x)dx = a° 
服从 正 态 分 布 的 样本 点 有 聚集 在 均值 附近 的 趋势 。 在 数值 上 ,对 于 正 态 分 布 , 下 面 的 各 个 概率 
R: 
Pr[lx — u| < o] x 0.68 

Pr[|x — ul < 20] x 0.95 (92) 

Prflx — ui < 30] = 0.997 
如 图 A-1 所 示 。 

一 个 衡量 样本 点 zx 偏离 均值 4 的 自然 度量 是 以 标准 差 为 单位 度量 的 距离 |x 一 pz| 
r= lx -el | (93) 
o 

也 就 是 过 到 Ap 的 Mahalanobis 距离 。 在 一 维 的 情况 下 ,这 一 距离 也 称 作 z- 记 分 。 例 如 ,使 z 偏 
离 均 值 u 的 Mahalanobis 距离 小 于 2 的 概率 为 0.95。 显 然 , 标 准 化 的 随机 变量 w= (zx 一 1)/o 
具有 0 均值 和 单位 标准 差 , 即 


len (94) 


plu) = Tix 
WA pD 一 N(0,1) 。 表 A-1 列 出 标准 正 态 分 布 的 一 些 值 , 即 给 定 值 z, 样 本 落 在 |L 一 z,zj 之 
间 的 概率 。 
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图 A-1 一 维 高 斯 分 布 plu) 
plu)--N(0,1), 68% 的 概 
i Be HK lal iu | <1 
中 。95% 的 概率 落 在 区 间 ; 
u| <2 中 ,99.7% 的 概率 落 
EX [a] | ul <3 中 





= 68% © 


= 95% a 
a 99.7% = 

E A-1 服从 标准 正 态 分 布 的 样本 的 绝对 值 小 于 某 一 标准 值 z 的 概率 ( 即 Prelu] <z)) 

z Pr[|u| < z] z Pr[|u| < z] Z Pr{|u| < z] 
0.0 0.0 1.0 0.683 2.0 0.954 
0.1 0.080 1.1 0.729 2.1 0.964 
0.2 0.158 1.2 0.770 2.326 0.980 
0.3 0.236 1.3 0.806 2.5 0.989 
0.4 0.311 1.4 0.838 2.576 0.990 
0.5 0.383 1.5 0.866 3.0 0.9974 
0.6 0.452 1.6 0.890 3.090 0.9980 
0.7 0.516 1.7 0.911 3.291 0.999 
0.8 0.576 1.8 0.928 3.5 0.9995 
0.9 0.632 1.9 0.943 4.0 0.99994 


A.5 高 斯 函数 的 导数 和 积分 


由 于 高 斯 晤 数 在 统计 模式 识别 领域 中 的 绝对 重要 性 ,我 们 经 常用 到 一 些 高 斯 函数 的 微分 和 积分 。 
首先 是 一 维 标准 高 斯 函数 的 求 导 公式 : 











0 1 72/(202 2 (202 一 天 

dx ses | T Vinas© — o? p(x) 

3? 1 72 /1202 2,42 —o? + x? 
Sin —x*f/(2o*) J 1 ye. 2) 3 -**/Qe~) _ 
ax2 | lang | — Ano’ ( oo +x ) e o4 p(x) (95) 
3? l 2262 219.2 —3xa* — x? 

-x4 / (20) | — l 2 Og SV px (20*) 

0x3 E- | Varo" Pe gs pix) 


其 函数 图 形 显示 在 图 A-2 中 。 
图 A-2 一 维 高 斯 分 布 fC) ~ No,1) 和 
它 的 前 3 阶 导数 
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一 个 重要 的 高 斯 图 数 的 有 限 积分 是 误差 图 数 , 定 义 如 下 : 
2 2 
erf(u) = Wa Je dx (96) 


从 图 A-3 可 见 ,erf(0) 一 0,erf(1) 一 0.84。 对 于 这 个 误差 函数 ,没有 便于 计算 的 闭合 的 解析 形 
式 。 因此 ,我 们 通常 使 用 表格 ,逼近 或 数值 积分 等 方法 来 求 它 的 估计 但。 


图 A-3 ”误差 函数 erf(z) 对 应 于 标准 高 斯 函数 在 区 间 一 V2z 
到 V2w 之 间 的 面积 ;也 就 是 说 ,如 果 x 是 一 个 服从 标准 高 斯 分 
布 的 随机 变量 ,那么 Pr[L|x| 志 V2uj 二 erf(w) ,这样 ,互补 的 概率 
1 一 erf(w) 就 是 以 |z| 汪 V2w 选取 样本 点 的 概率 。 切 比 雪夫 不 等 
式 指出 对 于 任意 一 个 均值 为 0、 方差 为 单位 方差 的 分 布 形式 ， 
PrL|z| 之 ej] 总 是 小 于 1/e ,所 以 图 中 的 最 低 的 那 条 曲线 是 以 
1/(2w ) 为 界 。 从 图 中 可 以 看 出 ,对 于 高 斯 肾 数 ,这 个 界 是 非常 
宽 的 





在 计算 高 斯 函数 的 各 阶 答 时 ,我 们 需要 计算 用 高 斯 归 数 加 权 的 xz 的 各 次 大 的 积分 。 首 先 ,让 
我 们 回忆 一 下 下 waa EM 


Tin+1)= | teas (97) 
0 
其 中 , 函数 满足 
rín) =nF(n — 1) | (98) 


和 TT(1/2)= 二 Vx。 当 nn 为 整数 时 ,我 们 有 Tn) =X (n—-1) X (n— 2) Xl En!, An 的 
阶乘 。 
对 式 (97) 作 变量 代 换 ,可 以 得 到 计算 高 斯 分 布 的 各 阶 和 矩 的 公式 : 








2 ”一 天 一 -一 Q 
x x 5 


e-*’/ (207) B gn/2y" (" 十 1 
Ino VT (99) 


这 里 我 们 引入 系数 2 和 令 积 分 下 限 为 0 的 原因 是 为 了 避免 当 ?” 为 奇数 时 积分 值 为 零 的 情况 。 
A.5.1 多 元 正 态 概率 密度 


服从 正 态 分 布 的 随机 变量 有 许多 良好 的 性 质 。 比 如 ,两 个 高 斯 函数 的 眷 积 仍 是 一 个 高 斯 
PAK ,也 就 是 说 两 个 各 自 服 从 正 态 分 布 的 独立 随机 变量 的 和 还 是 服从 正 态 分 布 。 事 实 上 ,即使 
不 互相 独立 的 两 个 正 态 随机 变量 的 和 也 服从 正 态 分 布 。 对 于 d 个 正 态 随机 变量 zx; 的 情况 , 假 
设 它们 各 自 有 自己 的 均值 和 方差 :pp (zi) 一 NCp,0f)。 如 果 这 些 随机 变量 是 互相 独立 的 , 则 
它们 的 联合 概率 密度 为 
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d d 
] ] 2 
— — ~1/2 x; -H;i )/;) 
p(x) = | | p(xi) = e coe 
[| I] y 200; 


1 1 fx; = wi? (100) 
一 d a| -32 ( Ci ) | | 
(20)4?] Jo; 
i=l 
此 式 可 以 用 紧 竣 的 矩阵 的 形式 表达 。 我 们 注意 这 些 独 立 随机 变量 的 协 方差 矩阵 是 对 角 和 矩阵 ， 
即 


o? 0 ... 0 
0 of ... 0 
> = a, ， |. (101) 
0 0 o? 
其 逆 和 矩阵 为 
l/o? 0 ... 0 
0 i/o; . .。. 0 
3 =| . o | (102) 
0 0 ... Ifaj 


这 样 , 式 (100) 中 的 指数 项 可 以 写 为 


d gy \ 2 
2 (=) = (x — p) E (x— p) (103) 
i=| : 


最 后 ,注意 到 协 方 差 矩 阵 互 的 行列 式 值 就 是 各 个 分 量 的 方差 的 积 , 于 是 我 们 就 能 把 联合 密度 
PRB Ey Me BE A IRSA 


= l| eap -l&- py etx 
po = aaa | 5 x py) D(x 由 | (104) 


这 就 是 多 元 正 态 密 度 函 数 的 一 般 形 式 , 其 中 ,并 不 要 求 协 方差 矩阵 马 为 对 角 和 矩阵 。 使 用 线性 
代数 知识 ,可 以 证 明 , 如 果 x 服 从 多 变量 正 态 分 布 , 那 么 下 列 等 式 成 立 : 


oO 


po = €[x] = J x p(x) dx 


OO 


$ = El(x px — p)'] = fo — B)(x — p) p(x) dx (105) 


就 如 同 我 们 所 期 望 的 那样 。 服 从 多 元 正 态 分 布 的 数据 样本 趋向 于 聚集 在 均值 向 量 & 周围 , 形 
成 一 个 以 协 方 差 矩 阵 歼 的 各 本 征 问 量 为 主轴 的 椭 球 形 云 团 。 随 机 向 量 x 偏离 均值 & 的 距离 
自然 度量 为 

r? = (x — ME (x — p) (106) 


其 中 vr 是 从 x Aju 的 Mahalanobis 距离 。 对 向 量 随 机 变量 的 标准 化 (使 其 均值 向 量 为 零 向 量 ， 
协 方 差 矩 阵 为 单位 协 方差 矩阵 ) 比 对 一 维 的 随机 变量 的 标准 化 要 复杂 一 些 。 类 似 于 w= 二 (zx 一 
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p)/o 的 表达 式 为 u 一 马 “(x 一 由) ,其 中 涉及 协 方差 矩阵 求 逆 后 的 “开平 方 根 ”。 求 瑟 “要 求 
计算 协 方差 矩阵 马 的 本 征 值 和 本 征 回 量 , 对 其 具体 过 程 的 描述 超出 了 本 附录 的 范围 。 有 兴趣 
的 读者 可 以 参阅 和 矩阵 论 和 和 矩阵 的 数值 计算 等 方面 的 著作 。 
A.5.2 二 元 正 态 分 布 

我 们 将 详细 分 析 二 元 正 态 分 布 ,这 将 有 助 于 更 深入 地 理解 多 元 正 态 分 布 的 概念 。 二 元 正 
态 分 布 就 是 有 两 个 服从 正 态 分 布 的 随机 变量 z 和 zs 。 为 方便 起 见 , 它 们 各 自 的 方差 定义 为 
Oj = 011 0 一 0 Ff A | 


p= gio (107) 
5| AFHK AR p. 
根据 这 些 定义 , 协 方差 矩阵 可 以 写 为 
|ø onr | _ o? poa 
2 =| on on | =| poio o2 i | (108) 
其 行列 式 的 值 为 
[Z| = o703 (1 — p°) (109) 
这 样 , 协 方差 矩阵 的 逆 窍 阵 为 
g- 一 1 | oF P0102 | 
olo2(1 - p?) | -po0 of 


1 | 1/o? /lo | 
1 一 0 | —p/@102) 1/03 


然后 ,展开 式 (104) 指 数 项 中 的 二 次 式 : 
(xX— uE '(x-— p) 


— l 1/of —p/ (0102) X1 一 Hi 
= pd 0 | oo, fe face | (11) 


_ l TE EEE 
1] 一 0 Oi Cr 02 o2 
所 以 ,一 般 的 两 变量 正 态 概 率 密度 函数 的 形式 为 p, , (zyzz) 


1 
Dxix (x1, X2) = 
M 2rolozvVT — p? (112) 


+) 
如 图 A- 4 所 示 pC 21 ,Zi) 是 一 个 定义 域 在 a FT EY ee a. PE a 


在 点 (ZX1,ZX2) 三 (jp,pz) 处 ,也 就 是 出 现在 均值 向 量 处 。 山 包 的 具体 形状 依赖 于 两 个 变量 各 
自 的 方差 9 ,02 和 它们 之 间 的 相关 系数 op。。 如 果 我 们 固定 二 次 项 


(F — 2p(HOM) (oH) 4 (Hay (113) 


O] O} 02 02 


(110) 
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的 值 为 菏 个 特定 常数 (可 以 理解 成 用 一 个 平行 于 cy 的 平面 去 截 p(x) HH DD ,就 得 到 一 条 对 应 这 
个 特定 第 数 的 等 值 线 (这 一 概念 非常 类 似 于 地 形 学 中 的 等 高 线 的 概念 )。 不 难 证 明 |p| 志 1, 也 就 
是 说 明 这 种 等 值 线 为 椭圆 。 椭 圆 的 形状 取决 于 两 个 变量 各 自 的 方差 oo 和 它们 的 相关 系数 p。 
更 准确 地 说 ,椭圆 的 两 个 主轴 方向 就 是 协 方差 矩阵 互 的 本 征 问 量 e 的 方向 ,其 长 度 则 为 对 应 的 
本 征 值 的 平方 根 VX 。 例 如 , 当 相 关系 数 o=0 时 ,椭圆 的 两 个 主轴 平行 于 坐标 轴 ,随机 变量 是 x ， 
zz 统计 独立 的 。 当 o=1 或 po= 一 1 时 ,椭圆 退化 为 直线 ,这 时 的 联合 概率 密度 其 实 只 有 一 个 独立 
变量 。 因 此 为 了 避免 这 种 事实 上 退化 成 一 维 的 情况 ,我们 通常 预先 假设 |p| <1. 

多 元 正 态 概率 密度 函数 的 一 个 重要 性 质 是 所 有 的 条 件 概率 密度 和 边缘 概率 密度 都 是 正 态 
的 。 在 这 里 ,我 们 给 出 一 个 详细 计算 这 种 概率 密度 的 一 个 例子 。 例 如 ,我们 要 计算 条 件 概 率 密 
度 paa (zlz)。 首 先 ,根据 条 件 概 率 密度 函数 的 定义 ,用 p,,, (zy,zs) 和 pa (xi) 来 代替 
Pr, +, Gre | el 

MA | 一 个 二 维 高 斯 济 数 ,其 均值 为 wo. mips 

阵 互 不 是 对 角 和 矩阵 。 如 果 其 中 的 一 个 变量 已 知 , 例 如 

CA n =t ,那么 此 时 另 一 个 变量 的 分 布 就 是 具有 均 

值 p11 的 高 斯 分 布 





Pes ler (Xl) = Prix: X1: X2) 
Px, (x1) 
| 
27rolozV] — p? 


: [Mironet | 





_ I exp.| - I Boe pee 
J 2107/1 — p? 2(1 — p?) 02 on 


lej 2 
| (114) 
2102/1 — p? 2 or/1— p? 


这 就 证 明了 条 件 概率 密度 bal C loo ARM IEA A. WME, RTE BB TOP MAE 
fo 与 条 件 方差 0i1 的 显 式 计 算 公 式 : 


02 
Hı = H2 toz = py) 和 a = 03(1 — p°) (115) 
I 
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如 图 A-4 所 示 。 

这 些 公 式 让 我 们 了 解 如 何 利 用 关于 二 的 知识 去 估计 zs 的 值 。 假 设 我 们 已 经 知道 了 2 
的 值 ,这 时 对 zs 的 估计 自然 就 是 条 件 均值 wz: 。 在 通常 情况 下 ,yz 一般 是 关于 zi 的 线性 函 
数 。 如 果 相 关系 数 p 为 正 数 ,那么 xi 的 值 越 大 ,条 件 均值 poi 也 就 越 大 。 如 果 zi 的 取 值 恰好 
是 均值 pi ,那么 对 zx; 的 估计 值 等 于 其 均值 x 。 同 样 ,如 果 xe, 与 zs 不 相关 , 则 无 论 x; 取 何 值 ， 
我 们 对 r: 的 估计 就 是 其 均值 x 。 注 意 这 样 的 情况 下 ,无论 x! 取 何 值 ,条 件 方差 of BSF 
é, WR zi 与 zz 相关 ,那么 已 经 得 到 的 关于 zi 的 知识 ,就 必定 能 使 此 时 zs 的 方差 减 小 , 即 
条 件 方差 oz 将 小 于 及。 另 一 个 极端 情况 是 , 当 zi 与 xz 之 间 100% 相 关 时 ,给 定 了 zi ,我 们 就 
能 确定 的 知道 x: 的 值 ,此 时 ci 一 0。 


A.6 假设 检验 


统计 假设 检验 (hypothesis testing) 提 供 判 断 某 次 实验 结果 是 否 具有 统计 显著 性 或 随机 性 
的 形式 化 方法 。 在 统计 学 的 术语 中 ,通常 把 次 观测 结果 的 集合 ; = (zz ，..，zo) 称 为 
“大 小 为 n 的 样本 ”。 但 在 这 里 ,为 了 与 通常 的 模式 识别 领域 的 术语 保持 一 致 , 我 们 把 单个 的 度 
BERRA PRR”, RV = late... ,Xs}) 就 被 称 为 “n 个 样本 的 集合 ”。 假 设 我 们 
现在 有 一 个 样本 集合 ,其 中 的 每 一 个 样本 可 能 是 一 个 已 知 分 布 D, 的 抽样 ,也 可 能 是 另外 分 布 
的 抽样 。 在 模式 识别 中 ,对 于 某 一 个 特定 的 样本 ,我 们 希望 决定 到 底 是 产生 于 哪 一 个 分 布 的 。 
如 果 这 个 源 分 布 就 是 Du ,那么 就 把 这 个 样本 归于 类 别 Du 。 而 假设 检验 方法 要 解决 类 似 的 问 
题 ,但 略 有 不 同 。 我 们 在 一 开始 就 假设 分 布 Do 就 是 这 些 样本 的 源 分 布 , 称 之 为 “ 零 假 设 ”( 或 
“ 零 假设 ”“ 零 假设 ”) ,并 被 记 为 五。 。 基 于 任何 一 个 样本 的 值 ,我 们 要 决定 出 现 这 样 的 样本 值 
是 否 符 合 零 假设 ,如 果 不 符合 的 话 , 则 要 舍弃 这 个 零 假设 。 也 就 是 我 们 希望 根据 某 种 置信 度 
(用 概率 形式 表达 ) 来 决定 这 个 样本 是 否 是 来 自 于 假设 的 源 分 布 Doo 

比如 ,D, 可 能 是 一 个 标准 正 态 分 布 pC(z)~N(0,1), 所 以 我 们 的 零 假设 就 是 样本 来 自 这 个 均 
值 x 等 于 0 的 高 斯 分 布 。 如 果菜 一 个 样本 的 值 比较 小 (比如 x=0. 3) ,那么 这 个 样本 确实 可 能 来 
自 于 分 布 De 。 参 照 图 A-1 ,我 们 知道 ,在 服从 高 斯 分 布 的 全 部 样本 中 ,68% 的 样本 偏离 均值 e 的 
距离 都 小 于 1, 0。 如 果 样 本 的 值 非常 大 (比如 z=5), 那 么 这 个 样本 更 有 可 能 是 由 另 一 个 均值 较 
大 的 分 布 产生 的 ,而 不 是 由 当前 分 布 Ds 产生 的 。 在 这 种 情况 下 ,我 们 只 能 断定 样本 是 (以 某 个 概 
率 ) 从 pz0 的 一 个 标准 高 斯 分 布 中 抽取 的 。 

从 另 一 种 角度 看 ,对 于 任何 一 个 用 概率 表示 的 置信 度 ,总 存在 某 个 对 应 的 置信 范围 。 例 如 ， 
如 果 某 个 样本 偏离 均值 x=0 的 距离 超过 了 这 个 置信 范围 ,这 我 们 就 舍弃 初始 假设 HH. GAR. 
这 个 置信 和 度 被 设 为 0.01 或 0.05)。 我 们 然后 可 以 说 样本 和 均值 x 之 间 的 距离 是 统计 显著 的 。 例 
如 ,如 果 我 们 的 零 假 设 为 标准 正 态 分 布 ,如 果 一 个 样本 偏离 均值 w 的 距离 超过 了 2. 576 ,那么 我 们 
将 “在 置信 度 为 0.01 这 一 水 平 上 ,舍弃 零 假设 ”( 这 可 以 从 表 A-1 推出 )。 如 果 有 多 个 样本 ,或 者 
零 假设 不 是 标准 正 态 分 布 , 那 么 分 析 过 程 将 更 加 复杂 。 注 意 , 这 里 所 说 的 “显著 性 ”只 是 统计 意义 
上 的 ,并 不 是 说 结果 本 身 重 要 与 否 。 事 实 上 ,假设 检验 方法 的 用 处 在 于 让 我 们 知道 在 观测 到 目前 
样本 的 情况 下 ,除了 初始 假设 之 外 ,是 否 还 有 更 加 可 能 的 某 种 其 他 原因 。 
x’ 检验 

假设 检验 也 能 用 于 离散 问题 。 假 设 我 们 有 个 样本 ,其 中 个 属于 类 别 om ,rs 个 属于 类 
别 w 。 在 分 类 时 ,我 们 并 不 知道 每 个 具体 样本 实际 属于 哪 一 类 别 , 因 此 对 于 某 个 分 类 的 规则 ， 
我 们 希望 知道 这 个 分 类 规则 是 否 有 用 ( 即 能 否 进 行 比较 正确 的 分 类 )。 在 这 种 情况 下 ,和 零 假设 
就 是 一 个 随机 判定 规则 一 一 即 选 择 一 个 样本 ,就 根据 某 个 先 验 概率 已 把 它 归 为 一 个 类 别 , 不 
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妨 称 为 “ 左 类 别 ”, 否 则 就 归 为 “ 右 类 别 ”。 如 果 一 种 候选 规则 同 随 机 判定 规则 有 显著 差别 ,就 说 
它 是 有 用 的 。 

这 里 ,我 们 需要 对 这 些 条 件 下 的 “统计 显著 性 ”用 精确 的 数学 语言 定义 。 随 机 分 类 方法 将 
把 属于 类 别 wi 的 Pm 个 样本 分 为 左 类 别 , 把 类 别 wo 的 Pr, 个 样本 归 为 左 类 别 , 其 余 的 样本 则 
归 为 右 类 别 。 如 果 一 个 新 的 分 类 规则 与 这 个 随机 分 类 规则 非常 不 同 , 那 么 这 种 候选 判定 将 显 
著 不 同 。 在 新 的 分 类 准则 下 ,我 们 记 nz 为 把 类 别 w; 中 的 样本 分 为 左 类 别 的 个 数 。 这 种 情况 
下 的 统计 量 六 就 是 


2 2 
> (niL — Nie) 
-一 Sti o 1 
x= 2 ne (116) 


其 中 ,根据 零 假 设 , 我 们 期 望 的 类 别 ww 中 被 归 入 左 类 别 的 样本 个 数 为 ni =P. BR YX 是 非 
负 的 ,并 且 只 有 在 nz 等 于 期 望 的 零 假 设 时 的 值 ze 时 才 为 0。X 的 值 越 大 , 零 假设 成 立 的 可 能 
性 就 越 小 。 这 样 ,对 于 足够 大 的 妨 ,新 的 分 类 规则 与 零 假 设 之 间 的 差别 在 统计 上 就 是 重要 的 ， 
因此 我 们 能 够 舍弃 零 假 设 ,并 认为 新 的 分 类 规则 确实 是 “有 用 的 ”。 对 不 同 的 置信 度 水 平 ,比如 
0.01 或 0.05, 表 A-2 给 出 了 允许 舍弃 零 假 设 的 X 的 临界 值 。 


表 A-2 不 同 自由 度 ( df) 下 ,位 于 两 个 置信 度 级 别 的 Xx” 临界 值 


df 05 Ol df 05 01 df 05 01 
1 3.84 6.64 11 19.68 24.72 21 32.67 38.93 
2 5.99 9.21 12 21.03 26.22 22 33.92 40.29 
3 7.82 11.34 13 22.36 27.69 23 35.17 41.64 
4 9.49 13.28 14 23.68 29.14 24 36.42 42.98 
5 11.07 15.09 15 25.00 30.58 25 37.65 44.31 
6 12.59 16.81 16 26.30 32.00 26 38.88 45.64 
7 14.07 18.48 17 27.59 33.4] 27 40.11 46.96 
8 15.51 20.09 18 28.87 34.80 28 41.34 48.28 
9 16.92 21.67 19 30.14 37.57 29 42.56 49.59 

10 18.31 23.21 20 31.41 37.57 30 43.77 50.89 


这 里 有 一 个 值得 注意 的 细节 问题 ;自由 度 (degree of freedom, 简 记 为 & 六 数量 。 在 上 文 的 
情况 中 ,一旦 先 验 概率 已 确定 , 则 只 需 一 个 自由 变量 描述 新 的 分 类 规则 。 比 如 ,在 新 的 分 类 规 
则 下 ,如 果 类 别 w, 中 被 分 入 “ 左 类 别 ” 的 样本 个 数 已 知 , 则 其 他 的 参数 也 惟一 地 确定 了 。 所 以 ， 
在 这 样 的 情况 下 , 自由 度 的 个 数 为 1。 如果 问 题 中 涉及 更 多 的 类 别 ,或 者 分 类 规则 能 产生 更 多 
的 可 能 结果 ,那么 自由 度 的 个 数 将 大 于 1。 自 由 度 的 个 数 越 大 ,达到 同样 的 统计 显著 性 级 别 的 
x 的 值 也 就 要 求 越 大 。 

我 们 把 临界 值 记 作 诸 如 “X81o, =6. 64” 这 样 的 形式 。 等 式 中 的 下 标 表示 重要 性 级 别 ( 这 里 
是 0.01) ,括号 内 的 整数 表示 自由 度 的 个 数 。( 在 表 A-2 中 ,为 了 与 统计 学 中 的 符号 系统 相 一 
致 ,我 们 使 用 了 df 这 一 标记 ,但 读者 应 该 清楚 ,在 这 个 场合 中 ,df 是 自由 度 , 而 不 表示 茶 一 个 
实数 太 的 微分 .这 样 ,如 果 在 1 个 自由 度 的 情况 下 ,我 们 计算 得 到 的 x 值 大 于 6. 64, 则 我 们 
就 舍弃 零 假设 ,并 说 在 0.01 置信 和 度 上 我 们 的 样本 分 类 结果 不 是 根据 (加 权 ) 随 机 判决 规则 得 到 
的 。 | 
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A.7 信息 论 基础 


A.7.1 ARSE 
假设 我 们 有 一 组 离散 的 符号 集 {vi ,vz，,... ,vm} ,每 个 符号 具有 相应 的 出 现 概率 P;。 为 了 
衡量 用 这 组 符号 组 成 的 特定 序列 的 随机 性 (不 确定 性 或 不 可 预测 性 ) ,定义 离散 分 布 的 炉 


m 
H =- $P, log, P, (117) 
i=] 


其 中 ,对 数 以 2 为 底 , 此 时 炳 的 单位 为 “比特 ”。 对 于 连续 的 情况 ,通常 则 用 以 e( 王 2.71828…) 
为 底 的 对 数 , 粹 的 单位 相应 地 称 作 “ 奈 特 ”nat)。 当 某 一 个 符号 出 现 的 概率 为 0 时 ,我 们 定义 
0log0 一 0( 因 为 im P log P=0) ,对 于 回答 是 或 否 《(yes/no) 的 问题 ,每 个 可 能 答案 出 现 的 概率 
为 0.5, 那 么 这 时 的 炉 为 1( 比 特 )。 式 (117) 也 可 以 写成 数学 期 望 算 子 的 形式 :H=é[log(1/ 
P)j。( 关 于 期 望 算 子 的 定义 ,请 参见 A.4. 2 节 中 的 式 (40))。 这 里 我 们 可 以 把 P 理解 成 一 个 
随机 变量 ,其 取 值 可 以 为 P,P,,…,P,。logzs1/P 有 时 也 称 为 惊奇 率 : 如 果 只 有 一 个 符号 vw 的 
概率 已 .不 等 于 零 ,其 他 符号 的 概率 全 为 0, 即 只 有 P= 二 1, 那 么 当 符号 出 现时 ,就 没有 任何 的 
惊奇 了 ,因为 我 们 已 经 知道 别 的 符号 都 不 可 能 出 现 。 

x TE AKT A SAS TTR KMS AR. MPAA 
m “FES , HA EE FES He BA a) BE R AA a Et A). Kae EE 
H=log, m( 比 特 )) ,也 就 是 说 , 当 每 个 符号 出 现 的 概率 都 相同 (为 1/m) 时 ,我 们 对 下 一 个 将 出 
现 什么 符号 的 不 确定 程度 最 大 。 例 如 , 当 这 些 符号 为 0,1,…,7 时 ,我们 需要 3 比特 来 描述 , 因 


Aikat, H=— Elie =log 2 二 3。 另 一 个 极端 情况 是 ,只 有 一 个 符 导 的 概率 为 1, 别 的 符 
号 的 概率 全 为 0 时 , 炉 最 小 ,为 0 比特 ,因为 此 时 我 们 能 完全 准确 地 预测 下 一 个 将 出 现 的 符号 ， 
对 于 连续 的 情况 , 灶 的 定义 为 


H = — J p(x) In p(x) dx (118) 


同样 ,用 数学 期 望 的 形式 来 表示 , 则 为 了 二 ELln 1/p]。 值 得 指出 的 是 ,在 所 有 的 连续 概率 密度 
函数 中 ,如 果 均 值 x 和 方差 o? 都 取 已 知 的 固定 值 , 则 使 炉 达 到 最 大 值 的 将 是 高 斯 分 布 ,此 时 的 
BARA H=0. 5+log: (V2xo) (比特 )。 如 果 让 均 方差 o 趋 近 于 0, 也 就 是 降低 z 的 散布 程 
RE , 则 高 斯 函数 将 趋向 于 狄 拉克 9 PH 
0 x#a 
co 和 
oo (119) 


J aw dx = 1 


一 Do 


此 时 , 精 达 到 最 小 值 ,为 负 无 穷 大 (五 = 一 ce 比特 )。 对 于 e 函数 形式 的 概率 分 布 ,我 们 几乎 能 
够 确定 每 次 出 现 的 z 的 值 就 是 a。 

需要 指出 ,对 于 连续 情况 下 的 概率 密度 销 数 的 炉 ( 如 定义 式 (118)), 有 一 些 细 节 问 题 在 实 
际 应 用 中 需要 灵活 考虑 。 如 果 xz 是 一 个 有 量 网 的 值 ( 如 长 度 单位 * 米 ”) ,那么 概率 密度 函数 


sx-o=| 





030 
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plz) 的 单位 就 是 (m-!)。 但 如 果 这 时 对 pC) BRR A, AB T OR FE GY, BY A BE OR A RE 


有 量 纲 。 所 以 我 们 实际 处 理 的 是 无 量 纲 的 概率 ,如 pr)/ po (Cz), 其 中 的 如 (z) 可 以 是 某 个 参 
考 概率 密度 函数 (参见 A. 7.2 节 )。 

对 于 离散 随机 变量 z MERAS) RIE HCf(z)) 硅 H(z), 即 对 原始 信号 (这 里 
是 zx) 的 任何 处 理 都 不 能 增加 炉 ( 也 就 是 信息 量 )。 和 特别, 如 果 (DBT RED BR, 
炉 变 为 0。 离散 分 布 的 炉 的 另 一 个 重要 性 质 是 :任意 改变 事件 的 标记 ,不 会 影响 这 组 符号 的 
, 因 为 炉 只 与 每 个 符号 的 出 现 概 率 有 关 , 而 与 符号 本 身 无 关 。 但 对 于 连续 的 随机 变量 的 情 
况 ,这 不 一 定 成 立 。 比 如 ,原始 的 变量 为 x, 经 过 某 种 改变 后 (比如 y= 二 x’ ,或 y= 二 10x) ,最 后 的 
MEE EAR HD. UR FRRA ENE. MK y 和 zx 具有 不 同 的 内 在 无 序 性 是 
没有 意义 的 ,因为 这 里 的 y 和 x 是 一 一 对 应 的 。 只 有 当 加 入 某 些 随机 性 后 (比如 函数 映射 时 
随机 改变 映射 之 间 的 位 置 ) ,我 们 才能 够 说 y 比 z 更 加 无 序 。 

在 实际 应 用 中 ,这些 细 节 问 题 通 常 不 构成 严重 影响 。 因 为 相对 焙 和 六 之 间 的 差 值 对 我 们 
来 说 更 加 重要 。 后 面 文献 评述 列 出 的 一 些 书 , 对 连续 随机 变量 的 粹 的 度量 等 基础 问题 进行 了 
更 深入 的 分 析 。 
A.7.2 相对 炳 

假设 对 同一 个 离散 随机 变量 zx, 我 们 有 两 种 可 能 形式 的 离散 概率 分 布 p(x) 和 q(xz)。 为 了 
衡量 这 两 个 分 布 之 间 的 距离 ,定义 相对 焙 ( 或 称 作 “Kullback-Leibler BR”, 是 一 个 与 “交叉 
i”. “信息 散 度 ” 和 “判别 信息 量 ” 的 概念 密切 相关 的 量 ) 如 下 : 








Dr(a) = Da in Se (120) 
连续 情况 下 的 相对 炉 定 义 为 
pri(p0),90) = f 46n 2 dx (21) 


虽然 Du (p+) gC) M Da PC) gC) =0 SAMY pC) =a + ) A MO. (A EAB MT 
EAS Fe: — 7S LIE 0 EE Bh (metri), BATE pog 互相 交换 时 ,我 们 会 发 现 Da 并 不 具有 对 称 
性 。 而 且 ,Drr (。,，*) 也 不 满足 三 角 不 等 式 。 
A.7.3 互 传 信 息 量 

假设 我 们 有 两 个 对 不 同 变量 的 概率 分 布 , 比 如 如 (z) 和 ac(y)。 互 传 信息 量 是 指 在 获得 一 
个 变量 的 知识 时 ,对 另 一 个 变量 的 不 确定 性 减少 的 量 : 
r(x, y) 
paxa) 





I (p; q) = H(p) — H(plq) = 》 r(x, y) log, (122) 
其 中 r(z,y) 为 zx,y 的 联合 概率 分 布 函数 。 结 合式 (120) ,我 们 可 以 看 到 , 互 传 信息 量 就 是 联合 
概率 分 布 >(z,y) 与 各 自 概 率 分 布 乘积 plo ZAMAN. BREW. ERR zy 的 
分 布 与 统计 独立 的 差别 程度 。 注 意 , 互 传 信息 量 不 服从 全 部 度量 性 质 。 尤 其 是 ,度量 要 求 ,如 
果 p(x) 二 gC(y) ,那么 不 需要 I(z;y) 二 0 成 立 。 我 们 可 以 举 一 个 例子 ,假设 有 两 个 二 值 随机 变 
BENZ MKS BRA r(00,0)=r(1,1)=1/2, AMER r(0,1)=r(1,0)=0, $ 
据 式 (122) ,计算 得 到 p DA (>y) 之 间 的 互 传 信息 量 为 log 2, 等 于 1。 
AAA RAR BHA CINK ARI A-5 所 示 。 从 图 A-5 中 可 以 看 出 一 些 直 
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WAER. KM EPMO Hp.) BEB Hp) Hg), Hp) = 
H(plg) 十 1(p;9) FẸ, 
图 A-5 对 于 两 个 分 布 pM RTF RRR RR Ap.) 
psp WR Hola) ,HClz) 之 间 的 数学 关系 。 比 如 可 / 
以 看 到 I(p;p) = H(p); 如 果 p:a) =0, BA H| p= ie 
HIQ; HQ =H p| PHH); FF 





Hiq) 


A.8 计算 复杂 度 


为 了 分 析 和 描述 某 个 问题 或 为 解决 这 个 问题 而 设计 的 某 个 特定 算法 的 难度 ,我 们 转 而 讨 
论 计算 复杂 度 的 概念 。 比 如 ,计算 一 组 样本 的 协 方差 矩阵 显然 要 比 计算 它 们 的 均值 复杂 。 或 
者 ,计算 某 个 函数 的 一 些 算法 可 能 比 另 一 些 算法 的 速度 快 , 或 只 需要 占用 更 少 的 内 存 空 间 。 我 
们 希望 建立 一 套 能 够 不 依赖 于 现 有 计算 机 硬件 性 能 的 描述 方法 (计算 机 硬件 的 性 能 总 是 不 断 
变化 的 ) ,来 衡量 这 些 计算 复 洒 度 的 差异 。 

到 目前 为 止 ,我 们 使 用 函数 的 阶 这 一 概念 ,并 且 还 使 用 渐 近 记号 0,Q0 和 @。 这 3 个 常用 
的 渐 近 界 (asymptotic bound) 的 定义 如 下 ( 见 图 A-6): 

渐 近 上 界 OCg(z)) 王 {f(zx): 存 在 正 的 常数 cc 和 xz,, 对 于 所 有 的 cS Kn AOS f(s 
egt ae) } 

渐 近 下 界 QC(g(z))= 二 {f(x): 存 在 正 的 常数 c 和 <zo, 对 于 所 有 的 x 之 zo，, 有 ORcg lays 
F521} « 

渐 近 紧 界 Ol g(a) ={ fla) FEER BRM csc Mw MFR cen. Oc g 
Cay. flr) Sez FCO } 


R \-5 图 中 所 示 Kx)=Oe(x)) RO= Qel) Ax =O(g(x)) 
的 3 种 渐进 界 非 常 J f(x) 

适合 于 描述 模式 识 

别 领域 中 的 计算 复 

杂 性 问题 





考虑 渐 近 上 界 ,我 们 说 fa) ESRF g(x) 的 大 O 〇 阶 ”, 写 为 f(x) 二 OLg(x)), 表 示 存 在 正 
常数 c 和 zr, ,对 于 所 有 的 x+ 宇 xo, 有 0 忒 f(z) 记 cg(x)。( 这 里 假设 全 部 函数 都 是 正 值 的 ,并 且 
自 变量 也 是 正 的 ,也 就 不 必要 使 用 绝对 值 ,) 这 就 意味 着 ,对 于 充分 大 的 x, f(x) 的 值 不 会 比 
g(xX) 更 大 。 比 如 , 设 f(x)= 二 a 十 bzr 十 cx? BARNA fl) =Ol2’) ,因为 对 于 足够 大 的 了 ,总 
可 以 选择 恰当 的 c ,zo ,使 得 a 十 bx 十 cr! 二 cx 满足 。 对 于 函数 /(。) 有 多 个 自 变 量 的 情况 , 浙 
近 上 界 的 定义 也 是 类 似 的 。 需 要 指出 ,对 于 函数 f(x) REAR EW. MF f(z) 二 
a 十 pz 十 cz2 HAE EAA AA OC), OC), Olt) OC ln x) SE. MF RIE TFA RN 
使 用 标记 Q(.) ,而 用 w(。) 表 示 最 紧 的 渐 近 下 界 。 在 计算 复杂 度 中 , 渐 近 上 界 这 一 概念 是 所 
有 的 这 些 渐 近 边界 中 最 有 用 的 ,因为 通常 情况 下 ,我们 都 希望 知道 某 个 问题 (或 算法 ) 耗 时 或 占 
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用 内 存 的 上 限 。 

问题 (或 算法 ) 的 渐 近 下 界 用 2Cg(Cz)) 来 表示 , 它 就 是 求解 这 个 问题 的 复杂 度 的 下 界 。 类 
似 地 ,如 果 某 个 问题 的 计算 复杂 度 为 O(g (x)), 那 么 它 就 是 求解 这 个 问题 的 复杂 度 的 上 界 。 
如 果 某 些 问 题 的 计算 复杂 度 已 知 , 比 如 ,我 们 已 经 知道 计算 一 个 离散 数据 集 的 均值 的 计算 复杂 
度 , 同 时 如 果 某 一 个 算法 具有 与 此 相同 的 计算 复杂 度 , 那 么 我 们 能 够 做 的 就 是 尽量 降低 其 中 比 
例 常数 的 值 。 

这 样 的 较 略 粗 分 析 并 没有 告诉 我 们 如 何 求 常 数 c 和 zx。。 对 于 某 一 个 问题 ,一 个 OD) WE 
法 可 能 要 比 男 一 个 OGz ) 的 算法 来 的 简单 。 有 时 我 们 就 需要 确定 这 些 常数 c, 来 决定 哪 一 种 算法 
最 简单 。 然 而 ,在 很 多 情况 下 ,如 上 文 所 定义 的 OC(，) 记 号 已 经 足够 描述 问题 的 计算 复杂 度 了 。 

假设 我 们 有 一 个 n 个 向 量 的 集合 ,每 一 个 向 量 都 是 d 维 的 。 我 们 需要 计算 这 些 向 量 的 均 
值 向 量 。 显 然 , 这 需要 OCnqd) 个 乘法 。 有 时 候 , 我 们 需要 强调 时 间 复 杂 度 和 空间 复杂 度 。 时 间 
复杂 度 是 指 算法 的 时 间 开 销 , 空 间 复 杂 度 是 指 内 存 空间 的 开销 或 需要 占用 的 处 理 絮 的 多 少 。 
在 考虑 用 并 行 处 理 系统 实现 时 ,这 两 者 是 很 重要 的 。 比 如 ,ad 维 向 量 的 均值 的 计算 可 以 用 4 个 
处 理 器 ,每 一 个 处 理 紫 独立 处 理 n 个 样本 分 量 。 这 样 ,对 这 个 系统 的 复杂 上 度 , 我 们 就 可 以 用 空 
间 复 杂 度 OC(d) 和 时 间 复 杂 度 O(n) 来 描述 。 当 然 , 对 于 一 个 实际 的 算法 ,有 可 能 在 时 间 复 杂 度 
和 空间 复杂 度 之 间 取 某 种 折 中 。 


文献 评述 


参考 文献 L15]L8j 是 讲述 线性 系统 和 甜 阵 计 算 的 较 好 著作 。 参 考 文献 L2j 介 绍 拉 格 朗 日 最 
优化 和 相关 的 方法 。 参 考 文献 L14]L3j 讲 述 统计 学 的 历史 ,参考 文献 L6,7,11,22j 给 出 概率 中 
心 概念 的 清晰 的 分 析 。 参 考 文献 L21j 能 方便 地 查询 概率 与 统计 的 术语 。 关 于 假设 检验 和 统计 
显著 性 理论 ,参考 文献 L25J 是 一 本 较 基 础 的 书 ;参考 文献 [19,26J 则 是 比较 深入 的 分 析 。 参 考 


文献 L23j] 是 香农 关于 信息 论 的 经 典 论文 。 参考 文 献 L24j 收 集 了 信息 论 历史 上 许多 其 他 的 重要 


论文 。 对 于 模式 识别 这 一 实用 领域 所 需要 的 信息 论 知 识 ,L5j 是 一 本 较 好 的 参考 文献 。 如 果 希 
望 了 解 更 抽象 和 更 形式 化 的 方法 ,可 查阅 参考 文献 [9]。 参 考 文献 L131 讲述 了 时 间 复 杂 度 , 参 
考 文献 [12,20j 讲 述 了 空间 复杂 度 。 参 考 文献 L16,17,18j] 是 Knuth 的 关于 计算 复杂 度 的 经 典 
著作 。 参 考 文献 L1,4j 是 更 便于 读者 进入 这 一 领域 的 著作 。 
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索引 中 的 页 码 为 英文 原 书 页 码 , 与 书 中 边栏 的 页 码 一 致 。 


Ls norm(Lz 范 数 )，188 

Loo norm( Loo 范 数 ),188 
Lknorm(L 范 数 ),188 
OC+)COC+), BIL big oh) 
ôC.) BH Dirac delta) 
$(¢, Bi “don’t care”symbol) 
AC*#,*)(AC* , * ), BU loss) 
Rd(Ra ,参见 Euclidean space) 
(t: matrix, pseudoinverse) 
wlw, & Il, state of nature) ,20 
p(o, Æ T correlation, coefficient) 
d-tuple(d 元 组 ,参见 tuple) 
d'(d' ,参见 discriminability) , 49 
k-nearest neighbor( 天 -最 近邻 ) ,163 ,174 一 177 
Bayes relation( 贝 叶 斯 关系 ),177 一 178 
四 (.)(B(，) 参 见 big theta) 

6(6 参见 vector, parameter) 
ACA, 2H, alphabet) 

EL- KE [。] ,参见 expectation) 
R: CR: BH, decision, region) 
20-questions( 问 卷 表 ) ,395 


A 


abstract computer( 抽 人 象 计 算 机 ,参见 computer, abstract) 
abstract encoding of a string( #4 AY fi 4g FS) ,462 
accuracy-complexity tradeoff( 精 确 性 一 复杂 度 折 中 ,186 
action( 动作 ) ,24 
activation function( $35 BRM) , 173,285,307 
continuity CHE% PE) ,307 
linearity( HE) , 307 
piecewise linear( 分 段 线性 ) » 307 
active learning( 主 动 学 习 , 参 见 learning, active) 
AdaBoost(AdaBoost 算法 ) ,478 
adenine( IR GEM) 413 
adjoint (FF Ba . MN, matrix, adjoint) 
agglomerative clustering (2 F 8 # H R% J, BM clus- 
tering, agglomerative) 
Agglomerative hierarchical clustering Algorithm( 基 于 合并 
的 层次 聚 类 算法 ) ,552 
algorithmic complexity( 算 法 复杂 度 ( 性 )) .462~463 
algorithmic entropy( 3:34.20, algorithmic complexity) 
alphabet (F fi} #) 415 
analysis by synthesis( 基 于 合成 的 分 析 ),7 


annealing (iB X) 
deterministic( 确定 手 ) 
Algorithm( BE) ,359 
mean-field( HH ,参见 simulated annealing) 
deterministic( 确 定性 ,参见 annealing , deterministic) 
schedule( 调 摩 ) ,355 
anti-cross validation( 反 交叉 验证 ,参见 cross validationyan- 
ti) 
anticipatory coarticulation ( 预 合 并 发 音 , 参见 coarticula- 
tion, anticipatory) 
arcing(arcing 算法 ) ,475 
ART( 自 适应 谐振 理论 ,参见 clustering, adaptive reso- 
nance) 
artificial intelligence( 人 工 智 能 ) ,431 
ascender(Ccharacter)( 上 半 部 分 (字符 )) ,375 
asymptotic lower bound( 渐 近 下 界 ,参见 lower bound, as- 
ymptotic) 
asymptotic notation( Sf ur FF S ) .633 
asymptotic tight bound (pE RW , 2JL tight bound, as- 
ymptotic) 
asymptotic upper bound( #7 it F FE. W, upper bound, as- 
ymptotic) 
augmented vector( i$)" fo] Æ) ,285 
auto-associator( § HE 48 2) 569 
auto-encoder( 自 编码 器 ) ,568 
network( 网 络 ),582 
average( 平 均值 ,参见 mean,expected value) 


B 


B-type unorganized machine(B- 型 无 组 织 机 器 ) ,333 
backpropagation( 反 癌 传 播 ) ,283 ,288 一 293 
Algorithm( 算 法 ) 
stochastic( 随 机 的 ) ,294 
stochastic with momentum( 带 冲 量 的 随机 反 向 传播 算 
法 ),314 
and neurobiology( 神 经 生物 学 ),285 
Bayes Theory( 贝 叶 斯 理论 ) ,303 
biological plausibility( 生 物 学 上 的 可 行 性 ),334 
feature mapping( 特 征 映射 ),299 
bad-character heuristic( 坏 字符 启发 式 规 则 ),416 
bagging( bagging # YE) ,475~476 
Baldwin effect( Baldwin 效应 ) ,382 


Basic minimum-squared-error clustering Algorithm (基本 
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的 最 小 平方 误差 事 类 算法 ),549 
batch training( 批 处 理 训练 ) ,228 
Baum- Welch Algorithm(Baum-Welch 算法 ,参见 forward- 
backward Algorithm) 
Bayes( Wil nt Bh) 
decision rule( 判 决 规则 ) ,23 
density estimation( 概 率 密度 估计 ),97 
formula( 公 式 ) ,22,24,91,303,463,531 
maximum-likelihood comparison( 与 最 大 似 然 方 法 的 比 
较 ,参见 maximum-likelihood, Bayes comparison) 
nearest-neighbor relation( 与 最 近邻 方法 的 关系 ),178 
Bayes error( 贝 叶 斯 误差 ) 
dependence on number of features( 与 特征 个 数 的 依赖 关 
系 ),110 
Bayes estimation( 贝 叶 斯 估计 ) 
maximum-likelihood comparison (与 最 大 似 然 估计 的 比 
较 ),100 
Bayes rule( 贝 叶 斯 规则 ),615,616,620 
model( 模 型 ) ,486 
vector( 问 量 ),617 
Bayesian( 贝 叶 斯 (的 )》 
learning( 学 习 , 参 见 learning, Bayesian) 
Bayesian belief networks《 贝 叶 斯 置信 和 网 ,参见 belief net- 
works) 


Bayesian decision theory( 贝 叶 斯 决策 论 , 参 见 decision the- 


ory, Bayesian) 
Bayesian estimation《 贝 时 斯 估计 ,参见 learning, Bayesian) 
Gaussian( 高 斯 (的 )) 


multidimensional( 多 维 (的 )) ,97 

beanbag chair( 豆 粒 座 垫 椅 ) 

example( 例 子 ),8 
BEATS example(BEATS 的 例子 ,参见 subset/superset) 
BEL( +) (BEL( +), 44 belief, function) 
belief( 置 值 ,置信 和 度 ) 

function( 图 数 )，58 
belief net( 置 信 网 ),56 

node( 48 hh) 57 
Bernoulli {4 4 AJ, B R, distribution, Bernoulli) 
Berry paradox( Berry t#i@) ,504 
Bertrand’s paradox( Bertrand 悖 论 ),507 
Beta( Beta, 2) distribution, Beta) 
between-class scatter ( 36 H) # #7, 20 scatter, between- 
class) 
Bhattacharyya( Bhattacharyya) 

bound( 界 ) ,47 

coefficient(p) (FR) ,75 
bias( 偏 差 ) »37,53,466 

boundary ww #) ,469 

estimator( 估 计算 子 ) ,473 
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preference( (im # ) ,464 
bias( offset) (fi # (Ha %)) ,216 
bias and variance( {ij 22 Al Fy H) ,465-~-471 
classification( 4¢ 248) , 468 
regression( 回归 ) ,466 
bias unit( 偏 差 单 元 ) ,285 
Bienaymé-Chebyshev ( Bienaymé-Chebyshev, 参见 Cheby- 
shev’s inequality) 
big oh(XK O Br) .633 
nonuniqueness( 非 单一 性 ),111 
notation( 记 号 ),1]11 
big omega( 大 N 阶 ),633 
big theta(K © BT) ,111,633 
binary feature( 二 元 特征 ,参见 feature, binary) 
Binormial( 二 项 式 , 参 见 distribution, Binomial!) 
binomial coefficient( 二 项 式 系 数 ),?8 
bit( 比 特 ),32,400,402 
blind source separation( 育 源 信 号 分 离 ),570,57] 
Boltzmann ($ 7K 2k B ) 
chain ( i OR 2K & # ) » 370 
constant (W iR S HR) 353 
factor (i KK BB) ,353 
zipper (i AK 2K S Rr) ,372 
Boltzmann learning (W #R 2% % Æ H., B HL learning, Boltz- 
mann) ,360~373 
application W FA) ,382 
deterministic( 确定 性》 
Algorithm( BYE) ,367 
network ( h¥ 24) ,455 
stochastic ( RE OL Uk AK 8K & H ) ,360~ 366 
weight initialization( 权 值 初始 化 ) ,368 
boosting(boosting 法 (增强 法 )) .476~ 480 
bootstrap( 自助 法 ),474 一 475 
aggregation (R # £H, bagging) 
bias estimate (iq # {fit >) ,475 
classifier accuracy( 分 类 器 的 准确 率 ) ,485 
variance estimate( 方 差 估 计 ),475 
bound( (误差 ) 界 ) 
Bhattacharyya ( Bhattacharyya FL, Æ W, Bhattacharyya, 
bound) 
leave-one-out( ff —3E AY FE) , 263 
boundary( CH 72) v2 FR, BH decision, boundary) 
boundary bias( 边 界 偏差 ,参见 bias, boundary) 
boundry error( 边 界 误 差 , 参 见 error, boundary) 
branch( 分 支 ) ,395 
branching factor( 分 支 系 数 ),397 
ID3(ID3 算法 ) ,411 
branching ratio( 分 支 率 ,参见 branching factor) 
bump% ©) 
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network response( PY 44 My fiz) , 287 
C 


C4. 5(C 4.5 算法 ,参见 classifier, tree, C4. 5) 
camera( 摄像 机 》 
for pattern recognhition( 模 式 识 别 中 的 摄像 机 ,2 
canonical variate (典型 变量 ,参见 Fisher linear discrini- 
nant) 
capacity (A Ht) 
hyperplane( 超 平面 的 ),495 
cardinality( 基 , 势 ) ,58 
cascade-correlation( 级 联 相 关 ) ,329,335 
Algorithm( 算 法 ),330 
category symbolCw)( 类 别 标记 (w)),20 
category unit( 类 别 单元 ) 
PNN( 概 率 神经 网 络 ) ,172 
Cauchy distribution( 柯 西 分 布 ,参见 distribution, Cauchy) 
Cauchy-Schwartz inequality ( 柯 西 - 许 瓦 效 不 等 式 ), 606, 
614 
vector analog( Jn) Æ F AY) .618 
causal network( 因 果 网 络 , 参 见 belief network) 
Central Limit Theorem( 中 心 极 限定 理 ) ,33 ,621 
chain rule( 链 式 法 则 ,参见 derivative, chain rule) 
character( 字 符 ) ,413 
charge( E ff) 
physical( #2) ,453 
Chebyshev’s inequality( 切 比 雪夫 不 等 式 ) ,612 
Chernoff bound(Chernoff 界 ) ,47 
chi-square( x? @ WE) ,629~ 630 
statistic( 统 计 , 参 见 statistic, chi-squared) ,629 
table( 表 格 ),630 
child(belief net)( 管 信和 网 络 中 的 子 节点 ) ,58 
Chomsky normal form( 乔 姆 斯 基 范 式 ) ,425 
chromosome( 染 色 体 ),373 
clamp( 箱 位 ),360,362 
class(2&) 
independence( 4W WE) .85,91 
class-conditional probability (4% A {F #& ©. B GL probabili- 
ty, class-conditional) 
classification( 4} 246 ,参见 pattern recognition) ,12 
cost (AR Ht ( BRR) »3 
food( @ fh) ,517 
model ¢ i AY) .3 
Classification and regression tree( 分 类 和 回归 树 ,参见 clas- 
sifier, tree, CART) | 
classifier( 分 类 器 ) 
Bayes( 贝 叶 斯 ),91,531 
unsubervised( 无 监督 ),530 
combinations( 44 4) ,495 一 500 





complex( 复 条 的 ),461 
component (4} ) ,476 
expert( 专 家 ) ,454 
Gaussian( 高 斯 ),220 
linear( 线 性 ),53 
margin( #§ Ħ ) ,224 
polynomial ( £ Sixt) , 307 
representation ( (3 f$) #23K ) ,375 
simple( fal FLAY) , 215,453,461 
stability( 稳 定性 ,参见 stability, classifier) 


tree( 树 ) 


binary( 二 叉 树 ) ,397 

C4.5(C4.5 算法),411 

CART(CART 算法 ),396 一 412 
computational complexity( 计 算 复 杂 度 ),406 
ID3(ID3 算法 ),411 


cluster( # 26 ) 


chaining (E $k), 554 
criterion( 准则 ) 
chi-squared( y? 统计》,557 
determininant( 行 列 式 ) 5545 
invariant( 不 变量 ) ,546 
Kolmogorov-Smirnov( & RARP K-PE RBH) ,557 
local minimum ( Jay BB ER /Jy) ,548 
trace( wh) ,545 
dendrogram ($ (A) 5551 
diameter( 直径 ) 
path( 路 径 ) ,566 
level( 屋 次 ),551 
mean( 均 值 ),549 
membership fuzzy( 模 糊 隶 属 度 ),528 
similarity measure( 相 似 性 度量 ),551 
singleton( 单 体 ),549 
tree( 树 ) 
minimal spanning( 最 小 生成 树 ) ,567 
validity( 有 效 性 ),551,581 


clustering( 聚 类 方法 ,参见 learning, unsupervised) ,17 


Adaptive Resonance( 自 适应 谐振 ),582,563 一 565 
agglomerative( #£-F 4 Ff AY) ,552~556 
Bayesian( J] nt #7) ,581 
bottom-up( 自 底 向 上 ,参见 clustering, agglomerative) 
complete-linkage( 全 连接 ),554,566 
ctitetion( 准则 ) 
sum-of-squared error 误差 平方 和 ),542,581 
trace( 迹 ),581 
criterion function CER ME pA) 542 
decision directed( 2 # & [J ) ,536~537 
divisive( 分 裂 ) ,552 
farthest-neighbor( 最 远 邻 ) ,554 一 555 
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fuzzy 天 -means( 模 糊 大 -均值 ) ,528 一 530 ,581 
gradient ascent( 梯 度 上 升 ),548 
graph theoretic( 图 论 的 ) ,566 一 567,582 
hierarchical ¢ E kA) .550~551,581 
agglomerative( >} ) ,581 
divisive( 分裂) ,581 
stepwise-optimal (1% 4 RA) 555—556 
hypothesis( Rit) 
null( 零 假设 , 零 假设 ) ,557 
iterative algorithms (Æ RRA H), 581 
大 -means( 天 -均值 ) ,526 一 528,581 
leader-follower(leader-follower 算法 ),561 一 565，582 
maximum algorithm( 最 大 化 算法 ),554 
maximum-likelihood( 最 大 似 然 ),581 
minimum algorithm( 最 小 化 算法 ),553 
motivations( 原始 动机 ),517 
nearest-neighbor( 最 近邻 ) ,553 一 554 
nonparametric method( 非 参数 化 方法 ),537 
optimization( 最 优化 ) 
iterative( 迁 代 ),548 
single-linkage( 单 连接 ),553,566 
small sample( 小 样本 ),532 
solution ( ## ) 
unique( 惟一 ) ,519 
splitting( 4} 29 ,参见 clustering, divisive) 
starting point( 起 始点 ),550 
coarticulation( 合 并 发 音 ) 
anticipatory( 预 期 的 ),10 
coefficient( 系 数 ) 
Bhattacharyya ( Bhattacharyya 系数 ,参见 Bhatta- 
charyya, coefficient) 
cofactor( 余 子 式 )》 
matrix( 4 , B Gl matrixycofactor) 
competitive learning( # $ 3J) ,559~561,582 
Algorithm( AF) ,560 
complexity( 3 Ze EF) 
classifier ( 4} 28 #8) ,265 
computational (i+) .16,111~114,633~634 
maximum-likelihood classifier( 最 大 似 然 分 类 器 ),111 
descriptional( 描 述 ,参见 algorithmic complexity) 
exponential( 指 数 ),112 
Kolmogorov( È RAAK, BM algorithmic complexi- 
ty) 
polynomial( 多 项 式 ),112 
space( 空 间 ),112,634 
time( 时 间 ),112,634 
component analysis( 成 分 分 析 ) .568~573,582 
component classifier( 分 量 分 类 器 ,参见 classifier, compo- 


nent) 


compression technique( 压 缩 技术 ) , 462 
computational complexity( 计 算 复 杂 度 ,参见 complexity, 
computational) 
accuracy tradeoff( 准确 率 的 折 中 ,参见 accuracy, compu- 
tational complexity tradeoff) 
and feature dimensions( #¥4E 4 &) ,16 
and number of categories( #36 # Af) ,16 
and number of patterns( 模 式 数 目 ),16 
of estimation( 估 计 的 》,100 
computer( 计算 机 ) 
abstract ( f# @) ,462 
Concept Learning System 概念 学 习 系 统 ),435 
conditional independence( 4 {4 Fk W ) ,52 
conditional probability( 条 件 概率 ,参见 probability, condi- 
tional) 
conditional risk( 条 件 风 险 , 参 见 risk, conditional) 
confidence based query selection( 基 于 置信 度 的 查询 选择 ， 
参见 query, selection, confidence based) 
confidence level( # fA EF 7K 32) , 403,630 
configuration( ft #) ,351 
hidden( 隐 含 的 ) ,361 
conjugate gradient (4E $g $ EF) , 321 
conjunction rule( 合 取 规 则 ) , 192 


` connected component( 连 通 子 和 集 ) ,566 


conservation law( 守 恒定 律 ),453 
consistency( 一 致 性 ),505 
constant( logical) (人 逻辑 常量 ) ,432 
constraint( 约束 ) 

imposition ( 施加 约束 ,365 

risk( 风 险 ),29 
context( E F X),13 

statistical dependence 2 i+ AH HE) 62 
convergence( 收敛) 

Ho-Kashyap( Ho-Kashyap 算法 ),251 
convolution( 卷 积 ) ,621 

Parzen( Parzen # ).167 
cooling schedule( 冷 却 进度 表 ,参见 annealing schedule) 
correct rejection( # A Pik ,参见 rejection, correct) 
correlation( #9 Æ) ,362 

coefficient( KH) .614,627,628 

spurious ( 虚假 ) ,362 

unit( 单 元 ) ,367 
cost( 代 价 ,参见 error) ,455 
cost matrix(4R HP 46 BE) , 409 
covariance( 协 方差 ) 34,613,618 

matrix( 4p & , 2 4, matrix, covariance) 

sample( ## 4) , 90 
normalized( I — 44) ,614 
of sum distribution( #4} 4 &)) ,97 





516 








covariance matrix( 协 方差 矩阵 ,参见 matrix, covariance) 
Cox axiom(Cox 公理 ),194 
credit assignment problem( 信 用 分 配 问题 ),289,291 
criterion( 准则 ) 
Neyman-Pearson ( Neyman-Pearson, 参见 Neyman- Pear- 
son criterion) 
scatter( Xk 4p ) ,544 
stopping ( f It ,参见 stopping criterion) 
sum squared error( 误 差 平 方 和 ) ,542 
criterion function( 准 则 函数 ) 
minimizing( 最 小 化 ) ,215 
second-order expansion( 二 阶 展 开 ) ,225 
cross entropy ( 2@ X #4], ÆW, entropy, cross, distance, Kull- 
back-Leibler) 
cross moment( 3% & 4 , 2 W, covariance) 
cross validation( 2@ X. uE) ,296,454 
anti( fz) ,484 
m-fold(m-f) ,483 
crossover( 4% X.) ,378 
curse of dimensionality (H # HE) .170,221,557 
cytosine( ffd MERE) ,413 


D 


DAG( 有 向 无 环 图 ,参见 directed acyclic graph) 
data( 数 据 ) 
collection 采集),14 
nominal( 语 义 , 标 称 ) ,394 
training( 训 练 ) ,84 
data description( 数 据 描述 ) ,537 
flat( 平 坦 的 ),551 
hierarchical( 分 层次 的 ),551 
data matrix( 数 据 和 矩阵 ) ,580 
data mining (9 48 F# HA) 517 
decision( RM . FIR. Fae) ,24 
Bayes( il Pf $f) ,23,25,51 
binary features( 二 人 和 值 特征 ) ,52 
bias( 偏 差 ) ,49 
boundary( 边 界 ),4,5,30 
complex( 复 杂 的 ),5 
hyperquadric( 超 二 次 ),41 
simple( 简 单 的 分 类 曲面 ,7 
compound( # 4 fy) ,63 
missing feature( 丢 失 特 征 ),54 
noisy feature ( WR Fa $F fE), 54 
primary( 主 要 的 ) .409 
randomized( 随 机 化 》,68 
region( 区 域 ),30 
rule( 规 则 ,参见 rule) 
sequentiai( 序 贯 的 ) ,63 


decision boundary( 判 决 边界 ) 
hyperplane( 超 平面 ),217 
bias( 偏 差 ),218 
negative side( 正 侧 ) ,217 
positive side( Th Mij) ,217 
linear( 线 性 的 》 
convex( #4 Ay) ,219 
smooth( 平 消 的 ),453 
decision function( H% PR RX) 
direct estimation( 直 接 和 估计 ),161 
decision surface( 判 定 面 ) 
hyperellipsoid ( #8 fH ER HI) , 220 
hyperhyperboloid ( # XX Hi ff) , 220 
hypersphere( 超 球面 ),220 
decision theory( 决 策 论 ,4 
Bayes( 贝 叶 斯 ),20,24 
discrete features( 离 散 特 征 ),51 
continuous features( 连 续 特 征 ) ,24 
decision tree( 判 定 树 ) ,395 一 412,455 
interpretability( 可 表示 性 ),396 
deficient pattern( 缺 损 模式 ,参见 pattern, deficient) 
deformations( 形 变 ) 
non-rigid( 非 刚性 的 ),12 
degree of freedom( 自 由 度 ) ,403 
network( 网 络 ),311 
dendrogram( 树 图 ,参见 cluster, dendrogram) ,581 
density( 概 率 密 度 ) 
class-conditional( 28 #& {#) , 92 
estimation (fi it) ,84 
component( A 4) .518 
estimation( 估计) ,92 
convergence( Uf #) 163 
divergence( & AK) »163 
nonparametric( 非 参数 的 ) ,161 
Parzen( Parzen % Ji 3) ,164-~~174 
sequence( 序列 ) ,98 
function( pH RX) 
average( 平 均 ),162 
Gaussian( 高 斯 ) ,84 
bivariate( 两 变量 ),626 
conditional mean( 条 件 均值 ) ,628 
marginal( 边缘 ),627 
mean( 均 值 ) ,621 
univariate( 单 变量 ),621 
variance( 方 差 ),621 
jointC RR4) ,520 
estimate( 估计) 92 
mixture( 混合 ),518,533 
maultimodal( 多 峰值 ),161 
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space average 23 BEJ Æ 4) ,163 
unimodal( 单 峰 ),161 
density estimation( 概 率 密度 估计 ),9 
derivation tree( 导 出 树 ) ,424 
derivative( 导 出) 
chain rule( 链 式 法 则 ),291 
descendent node( 后 代 节 点 ,参见 node, descendent) 
descent brocedures( 下 降 算 法 ) 
design sample( 设 计 样 本 ,参见 sample, design) 
determinant《 行 列 式 ) 
complexity( 复 杂 度 ),111 
deterministic annealing (确定 性 模拟 退火 ,参见 simulated 
annealing, deterministic) 
dichotomizer( 二 分 法 分 类 器 ),30 
dimensionality( 维 数 ) 
curse of( 灾难, 参见 curse of dimensionality) 
Dirac delta( 狄 拉克 6 函数),94,98 
directed acyclic graph( DAG) C [a] BHA) ,57 
discriminability( 可 分 性 ) ,48,75 
discriminant #4 $l] p 4) 
generalized linear( 广 义 线性 ),220 
homogeneous linear( 齐 次 线性 ) ,220 
hyperplanet 超 平面 ) ,282 
hyperquadratic( 超 二 次 曲面 ) ,220 
linear( 线 性 ) ,283 
hyperplane( 超 平面 ),217 
multicategory( 436 $l] ,218 
optimal( Ref) ,215 
multiple( # #),121~124 
quadratic( — *K) ,220 
regularized( iF WJ) ,114 
discriminant function ( *! 9! aa) 52 
discrete( 离散 ),52 
neural network( 神 经 网 络 ) ,285 ,286 
discrimination versus representation (辨别 能 力 与 表达 能 
力 ),581 
dissimilarity( 不 相似 性 ),556,575 
clustering( 26) ,553 
distance (E BS AF & ,参见 metric) 
city block( 城 市 街区 距离 ,参见 distance, Manhattan) 
edit ( $a HE BS) ,418~ 420 
Euclidean (Kk JL E # PR BS) ,36 ,606 
Kullback-Leibler( Kullback-Leibler BB  ) ,632 
Manhattan( # If #1) , 188 
Mahalanobis( Mahalanobis RE BS) ,36,107 ,622 ,626 
tangent( H) 3 H) 
two-sided BUGA YI [i] BES) ,205 
Tanimoato( Tanimoto) ,188 


distance function( PE BS pg Bt) 


as dissimilarity measure( 作 为 不 相似 性 度量 ),538 
distribution( 分 布 ,参见 probability, distribution) 
and missing data( 丢 失 数 据 },54 
Bernoulli A SA A) ,109 
Beta(8 分 布 ),109 
Binomial( 二 项 式 分 布 ) ,109,162 
Cauchy( 柯 西 分 布 ),148 
cumulative( 累积 分 布 ) ,440 
exponential( 指 数 分 布 ) ,108 
Gamma(T 4} #7) ,108 
Gaussian( 74} 4) 108,621 
covariance( 协 方差 ) ,626 
eigenvector( 本 征 问 量 ) ,626 
principal axes( 主 轴 ) ,626 
univariate( 单 变量 ) ,621 
joint( 联 合 ),617 
marginal (1 & 4} 47) 55,616 
maximum entropy( # XK) ,631 
Maxwell( # tf Si 4} 71) 108 
multinomial ( # mM RA), 109 
normal( 正 态 分 布 ,参见 distribution, Gaussian) , 108 
Poisson( 汝 松 分 布 ) ,78,109 
prior( 先 验 概率 ) ,616 
Rayleigh( 瑞 利 分 布 ),108 
separable( BJ 4¢ 49) ,161 
triangle( 三 角形 分 布 ) ,76 
uniform( 均 名 分 布 ),98 
divisive clustering ( 4} 39 HY RÆ ,参见 clustering divisive) 
DNA( 脱 氧 核糖 核酸 )》 
base pair( 基 对 ) ,413 
sequence identification (F FJR i), 1 
dogmatism ($ Mf Al) ,145 
“Don’ t-Care” Symbol (3% Ad ZF) ,413 
dot product( 点 积 ,内 积 , 参 见 inner product) 
dual functional( Xt 4 pa HY) , 276 
dyadic product( 二 重 积 ,参见 matrix product) 


E 


Eddington, Sir Arthur( Arthur Eddington -£) ,381 
edit distance( 编辑 距离 ,参见 distance, edit) 
eigenfunction expansion( 4 fE oR RIF) ,198 
eigenvalue( 本 征 值 ) ,609~610 

Fisher discriminant( Fisher 判别 》,120 
eigenvector( A fE [a] Ht) ,609~610 
EM algorithm( 期 望 最 大 化 算法 ,参见 expectation-maximi- 
zation) 
empty string( 空 串 , 参 见 string, null) 
energy( Be #) .351 

filter 78 HR) ,326 
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interaction( 交 互 作用 ),351 
landscape( 地 形 曲 面 ),352,358 
physical( 物 理 的 ) ,453 
entropy (#4) .32,339,462,630 
continuous distribution (i£ 2&4} 77 AH) , 631 
cross( Ff) ,318 
discrete( BRAY) ,631 
for independent component analysis( 4 W 4} Æ a Hr) ,582 
maximum ( Æ KAY) ,501 
relative( 相 对 的 ,参见 Kullback-Leibler distance) , 361, 
326 
epoch( [i] 4 ,次 数 ),294 
error( 误差 ) 
Bayes( 贝 叶 斯 ),22,101,453 
Gaussian( 高 斯 ) ,107 
boundary( 边 界 ),469 
dependence on number of features( 对 特征 数 且 的 依赖 )， 
110 
estimation( {Ai} ),101 
generalization( 推广 )，454 
indistinguishability( 不 可 分 辩 性 ,参见 error, Bayes) 
Minkowski H 8] K HE) , 318 
model (4 AY) ,90,101 
off-training set (JE il] RH) ,455 
probability( #§ 3%) ,21 
discrete case( 离 散 的 ),53 
minimal( 最 小 的 ),22 
sum-of-squared( 平 方 和 ),573 
test( 检 验 ),169 
training( 训 练 ) ,215 ,290 
Parzen window(Parzen 窗 ),168 
problems( 问 题 ) ,215 
validation( 验 证 ) ,296,483 
error functiohn QR Æ M% 66,559,623 
error rate( 误 差 率 ),13 
estimate( 估计) .482~486 
error surface( 误差 曲面 ) ,296 一 299 
plateau( 平 坦 区 ) ,296 
estimate( 估计) 
maximum-likelihood( 最 大 似 然 ) 
clustering ( E36 + AY) 520 
estimation( 估计》 
complexity ( 3 44 HE) , 100 
nonparametric( JE B RATT) 215 
Parzen( Parzen 窗 ) 163,177 
convergence( HY @) ,166 
illustration( 举例 说 明 ),168 
estimation error( 佑 计 误 差 ,参见 error, estimation) 
estimator ( {4 ++ ba RX) | 


absolutely unbiased ( 44 Xf Jt) » 90 
asymptotically unbiased( 4 UE FC (ig) » 90 
consistent (— 3%) ,505 
unbiased (70 (iq) ,90 
Euclidean norm( 欧 几 里 德 范 数 ,参见 distance, Euclidean) 
Euclidean space(R?)(d 维 欧 几 里 德 空间 ) ,51 
evaluation( fF Hf) 515 
events( 3 {F ) 
mutually exclusive( 4G Fr) ,615 
evidence (EH Al Ff) .23,616 
for model( 给 定 模 型 时 的 证 据 因 子 ) ,486 
evolution( 进 化 ) 
strategies( 策 略 ) , 382 
evolutionary method( 进 化 方法 ) .373-~ 380 
exchangeability( 可 交换 性 ) 
invariance( 不 变性 ) ,146 
exclusiv- OR(Ħ ak) , 264 
expansion< 展开 ) 
eigenfunction( 4 {E PH RX) » 198 
series( & RW ) ,199 
Taylor series( 3 hy & RM) ,198 
expectation ( “7 WA) 
continuous( # 2) ,619 
entropy (4%) ,631 
linearity( 线 性 性 ) .611,613 
vector( [a] Ht) ,617 
Expectation-Maximization (H #8 a K 1h) .55,124~128 
Algorithm(@ 3) ,125 
Exam ple( Ml F-) ,126 
generalized( 推广 ) ,137 
expected value( 期 望 值 ,参见 mean) ,31,611 
feature( 特 征 ) ,32 
probability( 概 率 ) ,162 
two variables( 两 变量 ),613 
expert systems( 专 家 系统 ) ,431 
explanations{ 解 释 ) 
multiple( 多 种 ,参见 indifference principle) 
exponential( 指 数 ( 分 布 ), 参 见 distribution, exponential) 
expressive power( 表 达能 力 ) 
network( 网 络 ),286 


F 


factor( 因子 , 因 式 ,参见 string, factor) 

factor analysis( 因 子 分 析 ) ,580 

factorial Bt FR) ,624 

Factorization Theorem( AAD A & BE) 104,533 
false alarm( He #) .49 

family (taxonomic) (H (4p 26% )) ,550 
feature( 特 征 ) ,1 


索 5] m 


binary( — 70) ,51 
choice( 选 择 ) , 14 
extraction ( 提取) ,2 ,8,11 
good( uncorrupted) (完善 的 (未 损坏 的 )) 55 
independence( 独 立 的 ),53 
integer valued( 整 数值 ) ,51 
missing( #4) ,12,54,365 
noisy (BR FA H) ,54 一 63 
related to error( 与 误差 的 关系 ),110 
robust( 健 壮 ),7 
space( 空 间 ) ,4,24 
continuous( 连 续 的 ),5 
isotropic( 各 向 同性 ),539 
rescaling( 缩 放 ),539 
ternary( 三 元 ),51 
transform( 变 换 ) ,85 
vector( 问 量 ),4 
binary( 二 元 ) ,52 
continuous( jÆ 4) ,24 
feature selection( 特 征 选 取 ) , 12 
filter (38 YF ) 
matched( Dt Ad ,参见 matched filter) 
fingerprint identification( F¥ £x iF $i) ) , 1 
finite state machine PRAR ASH) ,429 
first-order logic(— KiE $ ,参见 logic, first-order) 
fish( &) 
categorization example( 分 类 举例 ) ,1~7,62 
occlusion ( iH #9) , 52 
tooth( FF) , 394 
Fisher linear discriminant (Fisher 线性 判别 ,参见 linear 
discriminant, Fisher) 
fitness( 适 应 性 ) , 373,376 
fittest( 最 适应 ) 
survival of( 适 者 生存 ) ,373 
fixed increment( 固 定 增 量 7 ,260 
training( 训练) 
Algorithm (M.H) ,230,233 
flat data description 3238 AY) .550 
Fletcher-Reeves equation(Fletcher-Reeves 公式 ) , 322 
force( JJ) 
magnet (E 3%) , 358 
forward-backward Aigorithm( 前 向 -后 向 算法 ) , 138 
Fourier’s Theorem( 傅 里 叶 定 理 ) ,287,335 
free parameter( 自 由 参数 ) ,283 
frequency ratios( 频率 比例 ),526 
function( pH) ,433 
Dirac delta( 狄 拉克 è pM) 94,533,631 
gamma( I” pa BY) ,624 
hamonic( 7H YE K AX) , 287 
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Kronecker( Kronecker 天数 ) , 605 
vector valued( [nj Ht pj BX) 619 


fuzzy k-means clustering( 模 糊 大 -均值 聚 类 ) 
Algorithm( 算 法 ) ,529 


G 


game theory( 博 弈 论 ) ,28 
Gamma( 卫 分布 ,参见 distribution, Gamma) 
gamma function(l P% , BH, function, gamma) 
gap( B] Re) 
Winnow algorithm (Winnow 算法 ,参见 Winnow, algo- 
rithm, gap) 
gating subsystem( 选 通 子 系统 ),497 
Gaussian( 高 斯 ,参见 distribution, Gaussian) 
multidimensional( 多 维 ),33 
table( #) .623 
unidimensional( — #£ ) , 32,621 
univariate( 单 变量 ) , 32,33 
Gaussian derivative( 高 斯 函数 的 导数 ),623 
Gaussian elimination( 高 斯 消去 法 ),111 
GEM algorithm( 推 广 的 期 望 最 大 化 算法 ,参见 expectation- 
maximization, generalized) 
generalization( HE] ) ,5 
generalized additive model( J" X a INH HY , 306 
generalized delta rule( 推 广 的 delta 规则 ,参见 backpropa- 
gation) 
generalized expectation maximization( 推 广 的 期 望 最 大 化 ， 
参见 expectation-maximization, generalized) 
genetic( it fE) 
Algorithm F W) ,374,350 
operator( # F) ,374 
genetic programming (if fE $f 2j) , 378 ~ 380 
genome( 基因) 
human( A 26) ,414 
genus( 生 物 分 类 中 的 属 ),550 
Gibbs Algorithm(Gibbs 算法 ) ,102 
Gini impurity(Gini 不 纯度 ) ,399 ,401 
global error minimum( 全 局 误差 最 小 化 ) ,296 
golf course landscape( 高 尔 夫 球 场 式 的 地 形 曲 面 ) ,352 
good-suffix function 4 Jg B ay) 417 
good-suffix heuristic( 4G SR RRM) ,416 
gradient ( #8 BF) ,606 
operator( 算 子 ) ,87 
gradient descent( 梯 度 下 降 ,参见 backpropagation) , 350 
Algorithm( 算 法 ) ,225 
convergence( 收 敛 性 ) ,229 
fixed increment( [H 34) , 229,230 
grammar( 语 法 ,文法 ) ,7,421~426 
free( 自 由 ) ,424 
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inference #§ Bf) ,429 
learning (24 J) 
Algorithm( 算 法 ) ,430 
type0(0 型 文法 ,参见 grammar, free) 
unrestricted( 无 约束 文法 ,参见 grammar, free) 
graph( 图 ) 
similarity( 相 似 性 ) ,566 
graphical models( 图 模型 ) ,370 
Gray code( 格 雷 码 ) ,382 
greedy method( 贪 心算 法 ),400 
greedy search( 贪 心 搜 索 ,参见 search, greedy) 
guanine( $ mM) ,413 


H 


Hamlet (03 38 B Ff) ,381 
hardware( BE FF) , 1 
Harmonium( 和 谐 网 ) ,382 
Hessian ( th # (58) ,488 
Gaussian approximation ( # HUE) ,488 
singular( #7 5#) , 266 
Hessian mattrix( 赫 森 和 矩阵 ,参见 matrix, Hessian) 
hidden jayer( 隐 含 层 ) ,284 
hidden Markov model( 隐 马尔 可 夫 模 型 》 
Example( 例 子 ) ,133 
causal( 因 果 的 隐 马 尔 科 夫 模 型 ) ,129 
computation( 计 算 问 题 ),129 
decoding( 解 码 问 题 ) ,135 一 136 
ergodic( 各 态 历经 性 ),129 
evaluation( ff {8 [a] HI) .131~135 
learning( 学 习 问 题 ) ,137 一 138 
Forward-Backward Algorithm( 前 向 -后 向 算法 ),138 
state( 状 态 ) 
absorberC RF) ,129 
final( 最 终 ) ,129 
hidden unit exchange symmetry( 隐 单元 交换 对 称 性 ,参见 
symmetry, hidden unit exchange) 
hidden unit weights( 隐 单元 的 权 值 ) 
representation( 表示 ) 
hidden units( 隐 单元 ) 
number of( 个 数 ),310 
hierarchical data description( 层 次 数据 描述 ) ,551 
hierarchical dimensionality reduction( 层 次 降 维 》 
Algorithm( 算 法 ),580 
hint( 线 索 ),315 
hit( 击 中 ,命中 ) ,49 
HMM( 隐 马尔 可 夫 模型 ) 
decoding( 解 码 ) 
Exam ple(fAl-F) ,136 
left-to-right (M Æ ia) @) ,134 


as Å 5] 


Ho-Kashyap( Ho-Kashyap 界 ) 

bound( FE) ,255 

convergence( i 2Y) ,255 

nonseparability( 不 可 分 性 ),255 

separability( 可 分 性 ) ,253 

training( 训 练 ) 

Algorithm( 算 法 ) ,251 

Hopfield net( Hopfield 网 络 ) ,355 
horizon effect( 视 界 效 应 ) ,403 
Horner’s rule(Horner 规则 ) ,149 
hyperbolic tangent ( XX H iE WJ (R BX) , 308 
hypercube( 4 W. 77 {K) 653,164, 287 

Kolmogorov Theorem X RMR BHKE BH) , 287 
hyperellipsoid ( # fA EK H ) 41,537 
hyperparaboloid( #8 Hù ® Hj) .41 
hyperplane( #8 -¥ fff) ,41,53 
hyperquadric( 超 二 次 曲面 ),41 
hypersphere( 超 球面 ) ,41,541 
hypothesis( 假 设 ) ,455 

null( 零 假设 ,参见 null hypothesis) 

testing( 假 设 检验 ),8,403,628 

and clustering ( #46) ,581 


i. i. d〈 独 立 同 分 布 ) ,85 ,162 
ID3(ID3 算法 ,参见 classifier, tree, ID3) 
identifiability (AJ FIR FE) , 100,519,533 
discrete distribution (A M4} 4H) 519 
identity matrix( 单 位 矩阵 ,参见 matrix, identity) 
idiot Bayes rule( 朴 素 贝 叶 斯 规则 ,参见 naive Bayes rule) 
if-then ruleCif-then 规则 ) ,431 
image processing( 图 像 处 理 ) ,8 
threshold( 阅 值 ),3 
improper prior( 不 合适 的 先 验 ,参见 prior, improper) 
impulse response( 冲 击 响应 ),325 
impurity( 不 纯度 ) 
entropy (#]) ,398 
gain ratio( t #8 lt) .401 
Gini(Gini 不 纯度 ) .399, 401 
information (f & ,参见 impurity, entropy) 
Kolmogorov-Smirnov( X RARP K-HBiBHK) ,440 
misclassification( $$ iR 4¢- 246) ,399 
statistical significance( 统 计 显 着 的 ) , 402 
variance( 方 差 ),399 
weighted( 加 权 的 ) . 409 
incompressibility( 不 可 压缩 性 ) ,462 
inconsistent edge( 不 相 容 边 ) ,566 
independence( 独 立 ) 
class( 类 ) ,91 
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conditional( 条 件 ,参见 conditional independence) 
statistical( 统 计 ),34,62,613 
independent component analysis (独立 分 量 分 析 ),570 ~ 
573 
independent features( 独 立 特 征 ) ,107 
independent variables sum( 独 立 变量 和 ) ,620 
indifference( 3 #) 
principle( 原 则 ) .489,500 
indistinguishability error (不 可 分 性 误差 ,参见 error, 
Bayes) 
inductive logic programming ( 归纳 逻辑 规划 ) , 436 
infinite monkey theorem( 无 穷 猴 子 定 理 ) ,381 
information( 信息 ( 量 )),339 
bit( 比 特 ,参见 bit) 
divergence( 散 度 ,参见 distance, Kullback-Leibler) 
for discrimination (辨别 能 力 , 参 见 distance, Kulback- 
Leibler) 
loss( tit 4) .8 
mutual ( 3¢ 4 18) ,632~633 
information theory (fA Bit) ,462,630~633 
inner product( WN Al) , 33,541,605 ,606 
in networks( 网 络 中 的 ) , 285 
PNN( 概 率 神经 网 络 ) 
pattern unit( 模 式 单 元 ) ,173 
input( 输 入 ) 
scaling( 尺 度 调 整 ,; 尺 度 变 换 , 参 见 standardization) ,308 
input layer( 输 入 层 ) ,284 
input unit( 输 入 单元 ) 
PNN( 概 率 神 经 网 络 ) ,172 
insertion( #§ A.) ,375,379 
operator( #EVE 4) ,378 
instability( 不 稳定 性 ) 476 
interchange operation( 交 换 操 作 ) ,418 
interpolation( 内 插 ) ,9 
Parzen(Parzen ff) ,164 
invariance( 不 变量 ,不 变性 ) 
dilation( 膨 胀 》,541 
exchangeability ( 4 #4 RE FJ) ,146 
illumination # AF) ,12 
line thickness (4 # YR AE) 12 
rotation( fe 44) ,541 
tangent distance method( 切 空间 距离 方法 ) ,188 
translation( 平 移 ) ,102,539 
invariant( 不 变量 )，11 
inversion( genetic operator)( 反 转 ( 遗 传 操 作 符 )) ,375 


J 


jackknife( J] QE) .472~474 
bias estimate( 偏 差 估 计 ),473 
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classifier accuracy( 分 类 器 准确 率 ) ,485 
variance estimate( 方 差 估 计 ) ,473 
Jacobian( 雅 可 比 ),607 
Jacobian matrix( 雅 可 比 和 矩阵 ,参见 matrix, Jacobian) 
“jeetyet”example(jeetyet 例子 ) ,13 
joining( 联 合 ) 
node( 届 点 ,参见 merging, node) 
joint entropy( K 444) ,572 
joint probability Hk 4 #4 ,B KL probability, joint) 


K 


k-means clustering (大 -均值 聚 类 ,参见 clustering, k- 
means) 
Algorithm( 算 法 ) ,527 
Kalman filtering( 卡 尔 曼 滤波 ) ,334 
Karhunen-Loéve transform(KL 变换 ) ,568 
kernel( 核 (函数 ) ,参见 Parzen window) 
Kesler’s construction( Kesler 构造 法 ) ,265 
fixed increment< 国定 增 量 ) , 266 
keyword( X% # ia]) ,414 
kingdom( 王 国 , 领 域 ),550 
knowledge( M178) 
incorporating A ) ,7 
prior( 46%) ,20,91 
Kohonen map( Kohonen Bt $f, Æ UL self-organizing feature 
map) 
Kolmogorov’s Theorem( RARP KE) 287,335 
Kolmogorov-Simirnov test (CRAXI H-HKIEKRE). 
440 
Kronecker delta EP Alo 012-5) 418,455,525 
Kuhn- Tucker construction(Kuhn-Tucker 构造 法 ) ,263 
Kullback-Leibler distance( Kullback-Leibler 距离 ),361 
weighted( 加 权 ) ,362 
Gaussian( 高 斯 ) ,143 


L 


Lagrange optimization( 拉 格 朗 日 最 优化 ,参见 optimiza- 
tion, Lagrange) 
Lagrange undetermined multiplier ( fi W BAA ERF), 
610 
Lagrange method network training( 拉 格 朗 日 网 络 训练 , 参 
W, network training, Lagrange method) 
language(i& A ), 423 
last-occurrence function ( A Ja Wt BE PRR) . 416 
Law of Large Numbers( 大 数 定律 ) 

Hessian calculation( iB) ,488 
Law of Total Probability( 全 概率 定律 ),615 
Leader-follower clustering(Leader-follower RAA }#=) ,562 
leaf node( 叶 节点 ),395 
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learner( 学 习 机 ) 
weak (83) ,476 
learning (# Y) 
active( = a) ,480 
algorithm (#3) 
best (RÈ) ,453 
majority & KX) ,502 
minority( 少 数 ),502 
and adaptation《 自 适应 ) ,16 
Bayesian( Dl Af Hp) ,85 ,98 
pattern classification( 模 式 分 类 ) ,90 
Bayesian vs. maximum-likelihood( 贝 叶 斯 与 最 大 似 然 )， 
536 
Boltzmann (W 7K 2% @ ) , 350 
application( 应用) ,382 
competitive ($ Æ% ,参见 competitive learning) 
cost-based( 基 于 代价 的 ) ,480 
curve( 学 习 曲 线 ) ,295 ,492 一 494 
degenerate( 退 化 的 ),94 
evolution interaction( 进 化 交互 ),382 
incremental( 增 量 的 ) 
recursive Bayes (i% JA M t+ By) 98 
nonuniform (Jf #4 4] ) , 312,321 
rate( 学 习 率 ),29] 
Boltzmann( 3 R% ) ,361 
reinforcement (J4 3R ) , 17 
supervised( H KK) , 16,85 
supervised vs. unsupervised( 4 HB 5530 JA B®) 533 
uniform( 449) ,311 
unsupervised( A tH) 17,85 
batch protocol (Ht Xb HE EW . 536 
Bayesian¢ Jl H #7) ,532 
computational complexity (i+ BA) ,533 
decision-directed( 2 FH | [a] ,536 
with queries( 基 于 查询 ) ,480~ 481 
learning logic( 学 习 逻 辑 ),334 
learning rate( 学 习 率 ) ,225 
optimai( 最 优 ),312 
least-mean-square Ailgorithm( 最 小 均 方 算法 ),246,288， 
303 
leave-one-out bound( 留 一 法 的 界 , 参 见 bound, leave-one- 
out) 
leave-one-out mean( 留 一 法 均值 ),472 
letter( 字 母 , 参 见 string) 
level curves( 等 值 线 ) ,627 
likelihood( 似 然 ),22,52,86,616 
extremum( 极 值 ) ,87 
gradient ascent solution( 梯度 上 上 升 解 ),522 
in belief net( 置 信 网 ),59 


ratio( 比 ) ,52 
smoothness assumption( 光滑 性 假定 )，92 
linear discriminant( 线 性 判决 ) 
dual ( Xf 4) ,592 
Fisher( Fisher) ,85,117~124 
linear independence( 线 性 无 关 ) ,606 
matrix columns( 和 矩阵 的 列 ) ,609 
linear programming( 线 性 规划 》) 
objective 目标 ),256 
linear separability( 线 性 可 分 性 ),223,229,251 
linear threshold unit( 线 性 阅 值 单元 ) ,285 ,334 
Iink( 链 ) 
tree( 树 ,参见 branch) 
Lisp( Lisp 语言 ) ,379 
LMS( 最 小 平方 差 , 参 见 least-mean-square) , 260,282 
training ¢ 训练 ) 
Algorithm( BYE) ,246 
LMS artror( 最 小 平方 差 ) 
projection pursuit( 投 影 追 踪 ),305 
local minimum( 局 部 极 小 ),355 
high dimensional ( Bj 4E) ,299 
local representation( 局 部 代表 ,2 representation, local) 
log-likelihood (Xt BUH) » 86 
function( py AX) ,87 
logic (7 H) 
first-order(— Bf) ,432 
logical function ( 2 # A% ) »333 
lookup table( 查 找 表 ) ,402 
lossC Fit H) ,24 
classification(4> 26) ,26 
expected (#9 HA) , 24 
function( paw) , 24 
matrix( 和 矩阵 ) , 24,49 
minimal( 最 小 ) ,25 
symmetric( 对 称 ) ,26 
zero-one(0-1) ,26 
lower bound( F RR) 
asymptotic( Mz > »633 
Lyapunov function(Lyapunov 函数 ) ,351 


M 


machine perception( 机 器 感知 ,参见 perception, machine) 
magnet analogy for optimization( 优 化 问题 的 磁场 类 比 )， 
351 

Mahalanobis distance ( Mahalanobis 距离 ,参见 distance, 
Mahalanobis) 

Manhattan distance( $ HJEK, 20 metric, Manhattan) 
manufacturing data( 制 造 数据 ),310 
MAP( 最 大 后 验 , 参 见 maximum a posteriori) 
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margin( ij & ,参见 classifier, linear, margin) 
marginal (iH #&) ,612 
distribution( 4} 4 ) ,612 
marginalize 4b) ,55 
MARS( 多 元 自 适应 回归 ,参见 multivariate adaptive re- 
gression) 
mass function( Ji & ph MX) 
matched filter( 匹 配 滤波 器 ) , 302 
matching JC Ac) 
template( 模 板 ,参见 template matching) 
matching( 配 对 ,参见 crossover) 
matrix ( #6 RE) 
addition( Ji) ,605 
adjoint (fE BA) ,609 
antisymmetric( 上 反对 称 ) , 605 
covariance( 协 方差 ) ,33,526,607 
compjlexity( 复 杂 度 ),111 
determinant( 行 列 式 ),625 ,626 
diagonal( 对 角 ),526,618,619 ,625 
eigenvalues( 本 征 值 ),618 
estimates( {Hit ) ,90 
inverse( qi) ,625 ,626 
data, (iE RE, BL data matrix) 
derivative( 3K &) ,606~608 
determinant( fj Fl] KR) ,608~ 609 
hypervolume( 超 容积 ) ,608 
Hessian( # FE) ,608 
identity (D (28 iz 4 BF ) . 605 
inverse( ji ) 
derivative( FY) ,607 
inversion( 3K 3) ,609~610 
complexity,111 
Jacobian( #€ nJ tb) ,607 
multiplication( 3) , 605 
nonnegative( JE ff ) , 605 
positive semidefinite( 半 正定 ),618 
product( 外 积 ,参见 outer product) 
pseudoinvyerse( 伪 道 ),609 
scatter( 散 布 ),116,119,544 
total( 总 体 散 布 矩 阵 , 参 见 scatter matrix,total) ,544 
similarity( 相 似 性 ),566 
singular( 奇 异 ) ,120 
skew-symmetric( # Xf # ) ,605 
square( 平 方 ) ,605 
sweep methods( 扫 掠 方法 ),111 
symmetric( 对 称 ) ,605 ,607 
trace( 迹 ),144,609 
maximum-likelihood( 最 大 伺 然 ) 
solution( 解 ) 


non-uniqueness( 非 惟一 性 ),524 
maximum a posteriori (MAP)( 最 大 后 验 ),87 
estimator( 最 大 后 验 估 计 ),87 
maximum algorithm( 最 大 化 算法 ),559 
maximum entropy( ix K#,24 entropy, maximum) ,631 
maximum likelihood ( BX (WAR) » 84,586,350 
Bayes comparison( 贝 叶 斯 比较 ),85,100 
Gaussian( 高 斯 ) 
mean( 均 值 ) ,88 
mean and covariance( 均 值 和 协 方差 ) ,88 
solution( 解 ) 
non-uniqueness( JF HE — # ) , 100 
singular( A JF) ,524,525 
unsupervised( 无 监督 ) ,520 
Maxwell distribution (麦克 斯 韦 分 布 ,参见 distribution, 
Maxwell) 
MDL( 最 短 描 述 长 度 , 参 见 minimum description length) 
MDS( 多 维 尺 度 变换 ,参见 
mean( 均值),633 
Parzen estimate convergence( Parzen 估计 方差 ) ,167 
sample( 样 本 ,参看 sample mean) ,537 
trimmed, (前 枝 , 参 看 trimmed mean) ,475 
two variables( 两 变量 ),613 
vector( 向 量 ) 
mean vector( 均 值 向 量 , 参 见 vector, mean) 
median( 中 值 ),472 
Melville, Herman ( ah RS + FSR SER, SRD, BA 
(A aRic)),414 
memory( 记 忆 ) 
associative( #8) ,8 
mereology( 气 象 学 ) ,11 


multidimensional scaling) 


merging (4 #) 
node( 节 点 ),403 

metric( BF ft) , 187 
Linorm( L132) , 188 
Loo norm( Leo 范 数 ) » 188 
L,norm(L, 72%) ,187 
city block( 城 市 街区 ,参见 metric, Manhattan) 
clustering( #28) ,538 
dissimilarity( 不 相似 性 ),557 
Euclidean( kk JL # #) , 187,538 
induced ( # ).556 
Mahalanobis( Mahalanobis) , 541 
Manhattan( & M4 JH) 188 
Minkowski J 8] RE HE) 187,541 
non-negativity (JE ff tE), 187,556 
properties( ##+# ) ,187,556 
reflexivity( fz $f PE) .187,556 
symmetry( 对称 性 ),187 ,557 
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tangent distance( 1] HB BH) ,188~192 
Tanimoto( Tanimoto) , 188,541 
triangle inequality( 三 角 不 等 式 ) ,187,557 
minimal spanning tree (最 小 生成 树 , 参见 tree, minimal 
spanning) 
minimax risk( 极 小 化 风险 ,参见 risk,minimax) 
minimum algorithm( 极 小 化 算 法 ),553 
minimum description length ( $ 49 #4 IE KK HE), 402, 461 ~ 
464,501 
principle( BE MIJ) ,463~ 464 
misclassification( 49 ik 4 ) 
impurity( 不 纯度 ,参见 impurity, misclassification) 
miss( #4) ,49 
missing attribute( #4 JA tE) 
tree( 树 ) ,409 
missing feature( Æ & f 1E) 
mixing parameter (R GBM, JL parameter, mixing) 
mixture( 混 合 ) 
density( 密 度 ),518 
discrete distribution( 离 散 分 布 ),519 
mixture moedel( 混 合 模 型 ) ,496 
mixture of experts( 混 合 专家 ) ,496 
Moby Dick( 小 说 《和 白 鲸 记 }》 中 一 条 鲸鱼 的 名 字 ) ,414 
mode( 模 ,最 频 值 ) ,78,472 
MAP estimation( 最 大 后 验 估计 ),87 
model( 模 型 ),2 
choice( 选 择 ) ,15 
model error( i M iR Æ ,2 WN error, model) 
model selection (Ñ HY 4 FE) , 486,489 
heuristic( 启 发 式 ) ,283 
maximum-likelihood( 最 大 似 然 ),486 
Modified Ho-Kashyap( 修 正 的 Ho-Kashyap 训练 算法 ) 
training 
Algorithm,254 | 
moment (4 ) 
cross( 2 X , #4 covariance) 
second( — ff) ,611 
momentum( 动 量 , 冲 量 ),313 
physical( 物 理 ) ,453 
monotonicity constraint( 单 调 性 约束 ),575 
Monte-Carlo 98 #-€ 3%) .92 
motif 主体 ),414 
MSE algorithm( 最 小 方差 算法 ) 
generalizations{ 推 广 ),268 
multidimensional scaling ( 4 4E R JE ER) .573~576 ,582 
multinomial( 多项式 分 布 , 参 见 distribution, multinomial) 
multiple integral( 多 重 积 分 ),619 
multivariate adaptive regression( 包 元 自 适 应 回归 ),306 
mutation( 变 蜡 ) ,379 


"= & 5] 


mutual information( 交 互信 息 ,参见 information, mutual) 
N 


naive Bayes rule(#}# Bayes 规则 ) ,62 
nat( Ae FF) ,32 
nearest-neighbor ( Fy i 8B), 455 
classifier( 分 类 器 ) , 402 
condensing(! 收 缩 , 参 见 nearest-neighbor, editing) , 186 
convergence( HY 3) ,179 
editing ( Haj 44) ,185~186 
Algorithm #3) ,186 
error( iR # ) ,180~182 
finite sample PREF A) , 182,204 
variance( Fj Æ ) ,181 
partial distance( 部 分 上 距离 ) ,185 
prestructuring( 预 建立 结构 ),185 
pruning( 89% ,参见 nearest-neighbor, editing) ,186 
net activation( Pj 24 Sei) , 173,285 
network ( hj #) 
expressive power( #34 RE FJ) 5335 
network pruning ( PY 4 39 $ ) . 335 
network topology( 网 络 拓扑 结构 ),283 
neural network( 神 经 网 络 ),376 
chromosome representation (% f4 4K #18) ,376 
feedforward operation( Ail fit PRE) , 289 
learning( 学 习 ) , 290 
Probabilistic( 概 率 ) ,172 一 174 
time delay( 时 间 延 迟 ),326 
neuron( 神 经 元 ,参见 unit) 
Newton descent Algorithm( & W F MEME) ,226 
Neyman-~Pearson criterton( Neyman-Pearson 准则 ),29 
No Free Lunch Theorem( 没 有 免费 的 午餐 定理 ) , 454 一 458 
node( 节 点 ) 
belief net( 置 信 网 ,参见 belief net, node) 
child( 子 ),58 
descendent( 后 代 ) ,395 ,403 
leaf (HH) 
label( 标 记 ) ,404 
neighboring( 近 邻 ) ,403 
parent( 父 ) ,58 
root( 根 ),395 
terminal( 终 端 , 参 见 node, leaf) 
noise ( RFS ) , 12 
model (#2 #4) 55,56 
nominal data( $f PK BV HE) , 394 
nonlinear component analysis( 非 线性 成 分 分 析 ),569 一 570 
nonparametric method( 非 参数 化 方法 ),169 
nonuniform learning (4E 3 5 3 3, W learning, nonuni- 


form) 
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norm( 范 数 , 参 见 distance 或 metric) 
normal (jE AS 4} f , BI distribution, normal) 
null hypothesis( 零 假设, 夫 假 设 ) 8,628 


null string( 4 $ ,参见 string, null) 


O 
objective function( 目标 函数 ,参见 Lyapunov function) 
Occam(Occam) 
factor( Af) ,487 


William( William) ,6 
Occam’s razor(Occam #i JJ) ,398,453,464~465 
occlusion (i #4) ,11 
OCR( 光 学 字符 识别 ,参见 optical character recognition) 
offspring( 子 孙 ,后 代 ),373 ,374 
omega((w) (类别 状态 ,参见 state of nature 或 category 
symbol) 
on-line learning( 在 线 学 习 , 参 见 learning, incremental) 
one-of- c representation(c 中 取 1 表示 ) ,360 
operating characteristic( 操 作 特 性 ) ,48 一 50 
optical character recognition( 光学 字符 识别 ) ,1 

exhaustive training( 穷 举 训 练 ) ,16 

handwritten( 手 写字 符 ),8 

rate variation 语 速 变化 ,12 

optimal brain damage( 最 优 脑 损 伤 ) ,332,335 
optimal brain surgeon( 最 优 脑 外 科 ) ,331,332,335 
optimal coding theorem( 最 优 编码 定理 ) ,464 
optimization( 最 优化 ) 

iterative(JZE{R) ,527,550 

Lagrange( fil % BH A) 610 
optimization problem( ff tt [5] BH) .351 
oracle ( ## fq) , 480 
order( taxonomic) ( Bt (426% )) .550 
order of a function( 函数 的 阶 ),111 
orthogonal (E 2€) 
outer product( 外 积 ) , 120,606,618 
outlier( 出 格 点 ),543,555 
overdetermined solution( 趋 定 解 ),113 
overfitting( 过 氢 合 ) .5,16,373,464 

and genetic algorithms(i# 448 IE) ,377 


P 


palindrome [Ej 37) ,444 
Pandemonium( ## H E (BE) ,模式 认 知 的 一 种 算法 ) ,333， 
381 
Parameter( 和 参数 ) 
estimation( 和 参数 估计 ) ,84 
mixing( 混 合 参数 ),518 
sbace( 人 参数 空间 ) ,92 
parameter estimation( 参 数 估计 》) 


Bayesian( 贝 叶 斯 参数 估计 ) 
Gaussian case( 高 斯 分 布下 的 贝 叶 斯 参数 估计 ),97 
recursive Bayes( 递 归 的 由 叶 斯 参数 估计 ) ,98 
parent( 42) 
genetic algorithm( 遗传 算法 ),373 
parent(belief ne) (置信 网 中 的 父 节 点 ) ,58 
parity( 奇 偶 校 验 ) = 
three-bit(3 比特 ) ,299 
parse(( 人 名 法) 分析) 
table( 表 ) ,426 
parsing( 分 析 ) 
bottom-up( 目 底 向 上 的 语法 分 析 ) ,428 
Algorithm( BYE) ,427 
partition( Ac 4}) 
minimum variance( 最 小 方差 ) ,542 
partition function( MA xX) 353,361 
Parzen window( Parzen #),164,367 
classification( Parzen ff 4¢28) ,168~171 
estimate( Parzen 窗 估 计 ),163 
window width effect( 窗 宽 效 应 ) ,165 
prior( 先 验 ),168 
pattern( 模 式 ) 
completion( 补 足 ) ,382 
Boltzmann network( 波 尔 兹 电网 络 ),365 一 366 
deficient( 缺损 ),365 ,409 
desired( 期 望 的 ,参见 pattern, target) 
target( 目标 ),289 
teaching( 教 师 ,参见 pattern, target) 
training( 训 练 ),361 
pattern classification( 模 式 分 类 ,参见 pattern recognition) 
general purpose( 通 用 ) ,7 
information reduction( fk S 43 IR) ,9 
neural ( FH Ay) ,7 
statistical ( Bit AY) 6 
syntactic( iS E AY), 7,395 
pattern unit( 模式 单元 ) 
PNN( 概 率 神 经 网 络 ) ,172 
PCA( 主 成 分 分 析 ,参见 principal component analysis) 
penalty( fi] pa HW) ,464 
Perceptron( 感 知 器 ) » 286,333,375 ,482 
batch Algorithm (HALME) ,228,333 
criterion( 准 则 ) ,227,258 
phi function ($ 函数 ,参见 activation function) , 264, 282, 
285 
phoneme( 7 #) 510,517 
phylum( 门 《分 类 学 )),550 
PNN( 概 率 神经 网 络 , 参 见 neural networks, probabilistic) 
space complexity( 空 间 复 杂 度 ) ,174 
time complexity Ff [i] 4 Æ BE) , 174 











526 a 过 di 
weight (4M {Ñ ),172 singular( 奇 异 ),51 
Pocket algorithm(Pocket 算法 ) ,278 state-conditional( 状 态 条 件 ) ,24 
Poisson distribution( 泊 松 分 布 , 参 见 distribution, Poisson) distribution( 分 布 ) ,5 
Polak-Ribiere equation(Polak-Ribiere 等 式 ),322 joint( 联 合 ) ,22,612,615 
poll( 投 票 ) ,354 mass( 质 量 ) ,615,618 
polychotomizer( 多 重 分 类 器 ) ,30 mass function (M Æ AX) ,611 
polynomial classifier( 多 项 式 分 类 器 ,参见 classifier, poly- posterior( 后 验 概 率 ) ,520 
nomial) nonparametric estimation( 非 参数 化 估计 ),161 
polynomial discriminant( 4 it Fl FY pa RL) ,220 prior( 46%) ,22 
population( Fh BF (i fe BE) , 373 subjective( + WW) ,193 


post processing ( fq Xb #2) ,13 
posterior( 后 验 ) 
posterior probability( 后 验 概 率 , 参 见 probability, posteri- 
or) 
and backpropagation( fiz Ju] f& 4%) , 304 
postpruning( Jaq 39 4%, 2 JL pruning) 
potential function( 势 函数 ),195 
predicate( 谓 词 ),432,458 
prefix( Buy A) ,416 
empty( 空 的 ) ,420 
preprocessing( fill Xb HH) ,2,517 
prepruning( Hi BY F$ , 2 W, stopped training) 
principal axes( + $, B WL axes, principal) 
principal component( 主 成 分 ),539,545 
analysis( 4} #7) »568,582 
nonlinear( 非 线性 ) , 582 
principle of indifference( 漠 视 原 则 ,参见 indifference, prin- 
ciple) 
prior( 4438) ,20~21,24,53,616 
conjugate( Jt $) ,93 
determination ( #] 3i x > , 91 
estimation (fttt) ,84 
improper( 不 合适 的 ),102 
subjective( 主 观 ) ,486 
prior distribution( 先 验 分 布 , 参 见 distribution, prior) 
prior knowiedge( 上 先 验 知识 ) ,15 ,282 
probabilistic neural network (概率 神经 网 络 , 参 见 neural 
network, probabilistic) 
benefits( 利 益 ) ,174 
recall Algorithm( 回 想 算 法 ),173 
trainning Aigorithm( 训 练 算法 ) ,172 
Probability( 概 率 ),51 
a posteriori( 后 验 ),22 
a priori( 先 验 ),20 
class-conditional( 类 条 件 ) ,52 
conditional( 条 件 ),21,23,614,615 
density ( # BE) ,7,21,51,618 
estimation {fit ) »84 
joint( 联 合 ),619 


total law( 全 概率 ,参见 Bayes rule) 
probability theory( 概 率 论 ) ,611 一 623 
product space( 积 空间 ),612 
production (Æ FA) , 423 
projection pursuit( 投 影 追 踪 ) , 305 
projective distortion( 射 影 和 失真 ),11 
property d-tuple( 特 征 4d- 元 组 ,参见 tuple) 
propositional logic( 7 Mi $ ,参见 logic, propositional) 
protein( 2% Ai Jit) ,414 
prototype( 原 型) ,174 
pruning( 剪 枝 ),464 

Boltzmann network( 3k A 24 & PJ HB) ,382 

neural network( 神 经 网 络 ) , 330 
pseudoinverse( fH #4) , 260,324 
purity ( 4t AE) ,398 


Q 


quadratic programming( 二 次 规划 ),264 
query( 查 询 ) ,480 
selection( 选 择 ) 
confidence based( 基 于 置信 和 度 ) ,480 
voting based( 基 于 投票 ) ,480 


R 


random guess( 随 机 猜测 ),454 
random variable( 随 机 变量 ,参见 variable, random) 
discrete( 离 散 ),611 
vector( 回 量 ),616 一 618 
randomized decision rule( 随 机 判定 规则 ,参见 decision 
rule, randomized) 
rank( 秩 ) ,459 
Rayleigh distribution( 瑞 利 分 布 , 参 见 distribution, Ray- 
leigh) 
Rayleigh quotient( 瑞 利 商 ),120 
RCE( 库 华能 量 下 降 ,参见 reduced Coulomb energy) ,195 
recall( 回 想 ,参见 classification) 
receiver operating characteristic (ROO (接收 机 操作 特性 )， 
49 
recognition( 识别 ) 
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chairErample ¥ AF) ,8 
recursive Bayes (38 $5 Ul tH Bp) ,98 
regression( JH} JA) ,9 
ridge) ,114 
regularization( iF WU) 4b) ,330~332,464 
reinforcement learning( 强 化 学 习 , 参 见 learning, reinforce- 
ment) 
rejection( 拒绝 ) 
correct( 正 确 ),49 
option( 选 择 ),24,69 
relative entropy AB ST BY) » 361 
relaxation( FA HE) , 236 
distributed( 4} xt) , 307 
global( 全 局 ,参见 representation, distributed) 
local( 局 部 ) ,308 
resampling( 重 采样 ),454,471 
for classifier design( 4% #3 iif) .475 
response function( Ig hy py RX) , 358 
ridge function( 4 ph HQ) , 305 
ridge regression( 着 回归 ,参见 regression, ridge) ,305 
risk( RY) ,13,24 
conditional( #{#) ,24,51 
minimax( 极 小 化 极 大 ) ,28 
overall( 总 体 ),51 
sample( 样 本 ,参见 error, training) 
root node( 根 节点 ,参见 node, root) 
root symbol( 4 4 &) ,422 
rotation( fie # ) .11 
rule( 规 则 ) 
qdqecision( 判 定 ),21 
rule-based methods( 基 于 规则 的 方法 ) ,431~434 


S 


saddle point( 鞍点 ),524 
saliency ( fp #) ,331 
sample( #¥ A ) 
design( iit) ,84 
mean( 4) {É ) ,88 
sample independence( 样 本 独立 性 ),532 
scalar product( 标 量 积 ,内 积 , 参 见 inner product) 
scale( 尺 度 ),11 
scatter( 散 布 ) 
between-class( 类 闻 ),120 
within-class( 类 内 ),119,120 
scatter matrix( 散 布 矩 阵 , 参 见 matrix, scatter) 
eigenvector( 本 征 向 量 ) ,546 
invariant( 不 变性 ) ,546 
scatter plot( 和 散布 图 , 散 点 图 ) ,4 
score(evolutionary methods) (得 分 (进化 方法 ), 参 见 fit- 
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ness) 
search( 搜 索 ) 
bias( (id Æ) .524 
exhaustive( 9f žE), 350 
greedy(@-L) ,351 
stochastic( BA BL) ,351 
tree( PY) , 185 
second moment( __ 4,2 4, moment, second) 
segment( 片断 ,分 段 , 参 见 string, factor) 
segmentation( 4} #i) ,2,9,582 
speech H 7) .10 
selection( 选 择 ) 
and genetic algorithm( ik (§ BK) , 377 
fitness- proportional ( 比例 适 值 选 择 ) 377 
self-organizing feature map( 自 组 织 特征 足 射 ),576 一 579， 
582 
sensitivity( R ft RE) 
unit( #496) ,291 
sensor vector( 传 感 器 向 量 ) ,570 
sentence( 何 子 ) ,422 
set diagram( 集 合 图 ,参见 Venn diagram) 
shadow( ®% F ),12 


” Shannon coding theorem( # #& 4a 3 & FE) , 464 


Sherman-Morrison-Woddbury formula€ Sherman-Morrison- 
Woddbury 公式 ),151 
shift valid( 有 效 位 移 ),415 
shrinkage( 收 缩 , 缩 并 ) ,114,151 
sigmoid( sigmoid pa) ,358 
parameter( #3 ) , 308 
sign function% & pa RW) , 285 
signal detection theory( 信 和 号 检测 理论 ) ,48 
significance( 显 著 性 ) 
level( 水 平 , 参 见 confidence level) 
statistical( 统 计 ),629 
threshold( 门 限 , 阅 值 ) ,8 
similarity( 相 似 性 ),394 
similarity function( 相 似 性 函数 ),541 
similarity graph( 相 似 性 图 ,参见 graph,similarity) 
similarity measure《 相 似 性 度量 ) ,538 
simplex algorithm( 单 纯 型 算法 ),256,261 
constraint( #] # ) ,258 
feasible solution( nJ 77 ##) , 257 
nonseparability (A BY 4} FE) , 257 
simulated annealing A HLR KK ) .351~360 
deterministic( HA SE FE) »357~ 360 
stochastic Algorithm (fH HLA YE) ,355 
skeleton #42, 2 Wh, tree, spanning, minimal) 
softmax(softmax 算法 )，305 ,498 
solution region( 解 区 域 ) ,224 





528 





SOM( A BARTER . 2 WW self—organizing feature map) 
source separation (jas B24 BB) 
blind( 盲 ),582 
space( 空 间 ) 
Euclidean (R?) (BK JL) ,24 
space-time tradeoff( 空 间 - 时 间 折 中 ) , 634 
species( 种 类 ) ,550 
speech recognition( 语 音 识别 ) ,462 
rate variation( 语 速 变化 ),12 
rounding ( H #8 .#E77).10 
spline function( #f & BARD , 306 
split( 分 裂 ) ,396 ,397 
surrogate( 4%) ,409 
stability( 稳 定性 ) 
classifier( 分 类 器 ) ,406 
stability-ptasticity dilemma( 稳 定性 -可 塑性 矛盾 ),559 
standard deviation( 标 准 差 ) ,612,622 
standardize( 标 准 化 ) ,308,311 
data( 数 据 ),338,339 
state of nature(w) (自然 状态 ) ,20,85 
state-conditional probability density (状态 条 件 概 率 密度 ， 
参见 probability density, state conditional) 
statistic( 统 计量 ) 
sufficient( 充分) ,462 
statistical( 统 计 ) 
dependence( Zit KM) ,62,614 
independence( # tt k Z) , 34,614,618 
expectation (#4 @) ,614 
noise (MA FA) ,55 
Gaussian( 高 斯 ) ,627 
significance( # + m $ YE, B WL significance, statistical), 
402 
vector( m] Æ) ,616 
statistical mechanics( 统 计 力 学 ),350 
Stepwise optimal hierarchical clustering (逐步 优化 的 层次 
FE) 
Algorithm( ® 3) .555 
stochastic descent( BA 8L F RE) .260 
stopped splitting ( Ik 4} $) ,402~ 403 
stopping eriterion( 停 止 准则 ) ,138,294,299 
and genetic algorithm( E BE) ,377 
string (4) ,394,413 
factor( AF) ,413 
matching (DG A) .415~~418 
Boyer-Moore Algorithm( Boyer-Moore 算法 ) , 416 
with* don’ t-care” symbol (47 38 Ad 4) ,421 
with errors( 带 误差 ),420 
null( 43) ,422 
operations( $R fE) ,413 


random( BA #L) ,463 
student component( 学 生成 分 ,参见 unlearning component) 
subcluster F 3% 28) 550,581 
subgraph( 子 图 》 
complete( 完 全 ) ,554 
maximal complete( MA 54) ,566 
subjective probability (主观 概率 ,参见 probability, subjec- 
tive) 
subset-superset problem( 子 集 - 超 集 问题 ),418 
substring( 子 串 ,参见 string, factor) 
subtree( 子 树 ) ,396 
sufficient statistics( 充 分 统计 量 ) ,98,102~109,533,536 
in unsupervised learning( 无 监督 学 习 中 的 ),537 
suffix( 后 级 ),416 
matching( 匹 配 ,参见 good suffix) 
supervised learning (有 监督 学 习 , 参见 learning, super- 
vised) 
support vector( 32 FF pi BE) , 262 
Support Vector Machines( 支 持 向 量 机 ),259 一 265 
surprise( 惊 异 ( 度 )),631 
surrogate split( 替 代 分 支 , 参 见 split, surrogate) ,412 
survival of the fittest GF Æ #) ,373 
symmetry (Xf ERTE) 
hidden unit exchange( 隐 单元 交换 ),337 
synapse( 突 触 ),285 
syntactic pattern recognition( 合法 模式 识别 ,参见 pattern 


recognition, syntactic) 


T 


tangent vector( 切 向 量 ),190 
Tanimoto metric( Tanimoto 度量 ,参见 metric, tanimoto) 
target( 目 标 ) 

value( 值 ) ,309 
target propagation( 目 标 传 播 ) ,334 
taxonomy( 分 类 ),550 
Taylor series( 泰勒 级 数 ),607 
TDNN( 时 间 延 迟 神经 网 络 , 和 参见 neural network, time de- 
lay) 
teacher component( 教 师 成 分 ,参见 learning component) 
temperature( 温度 ) 

annealing( 退 火 ) ,352 

in genetic algorithmss( 直 传 算法 ),377 
temperature(randomness) (温度 (随机 程度 )) ,352 
template matching (#2 4 YE Be) ,39 

string( AA) ,414 
temporality( 临时 性 ) ,128 
ternary feature( 三 元 特征 ,参见 feature, ternary) 
text( 文本 ) 

string matching( 4 DU fic) ,413 


索 5; m 


threshold( {A , Æ UL bias) ,37 
threshold function ( [iq {É ba BX) , 285 
threshold weight ( BY (HAN) ,53 
thymine ( fy Ag HE) ,413 
tight bound KH) 
asymptotic( #7 iT) ,633 
time delay neural network (FY jB] RE IK FHA BY HS ,参见 neural 
network, time delay) 
Tolstoy, Leo(FiK + FERPA) ,414 
topologically ordered map( 拓 扑 有 序 上 映射 ,参见 self-organi- 
zing feature map) 
topology( 拓 扑 学 ) 
Boltzmann net( 波 尔 兹 最 网 络 ) ,367 
network( 网 络 ,参见 network topology) 
trace( 迹 ,参见 matrix,trace) ,144 
trace criterion( 迹 准则 ,参见 cluster criterion, trace) 
training( 训练 ) ,15 
training data( 训 练 数据 ,参见 data, training) 
limited( 有 限 的 ),163 
training procedure( 训 练 过 程 》 
stochastic( 随 机 》,293 
training protocol( 训练 协 议 ) 
batch(4it Xb FB) ,293 
on-line( 在 线 ) , 293 
transform( 4 #&) 
whitening( H 4b) ,34 
transition probability( 转 移 概 率 ) 
Markov model( 马 尔 可 夫 模型 ) ,128 
translation( 平 移 ),11 
axis( 轴 ) ,220 
transpose( 转 置 ) ,604 
transposition( 转 置 , 参 见 interchange) 
tree( 树 ,参见 decision tree) 
balanced( 平 衡 ) ,402 
binary(— &) ,397 
derivation( & 4) ,424 
minimal spanning( 最 小 生成 ),554 
missing attribute( 丢 失 属 性 ) ,409~410 
multivariate( 多 变量 ) ,408 
priors( 先 验 ) ,409 
pruning( 蚤 枝 ) ,403~404 
simplicity( 简 单 度 ),398 
spanning( 生 成 ),554 
minimal( 最 小 ) ,556 
unbaianced( 非 平衡 ),403 
tree(graph)( 树 (图 )),553 
triangle inequality( 三 角 不 等 式 , 参 见 metric, triangle ine- 
quality) 
trimmed mean( #89 Hi (A.B mean,trimmed) ,510 
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tuple( JCH) ,394 
Turing machine( 图 灵机 》,462 
twiddle( 旋 换 , 参 见 interchange) 


U 
Ugly Duckling Theorem( # /)\ P8 4 BB) ,458~461 
ultrametric #4 AE) ,557 
unidentifiable( 不 可 分 ) 


complete( 完 全 ) ,519 
uniform distribution( 均 名 分 布 , 参 见 distribution, uniform) 
uniform learning( 394) °% YJ , B Gl learning, uniform) 
unit( 单 元 ) ,285 

hidden( 隐 ) ,330 
universal Turing machine( 通 用 图 灵机 ,参见 Turing ma- 
chine) 
unlearning component( 未 学 习 成 分 ) ,362 
unpredictability( 不 可 预见 性 ,参见 entropy) 
unsupervised learning( 无 监督 学 习 , 参 见 learning, unsuper- 
vised) 

convergence rate( Wy # EK) ,536 
upper bound( | #) 

asymptotic( Mit) ,633 


yv 


validation (38 GE) 
error( iR Æ, N, error, validation) 
set( 集 合 ) ,295 ,483 
validity( 正 确 性 ) ,557 
variable( 变 量 ) 
random( 随 机 ) ,62 
continuous( 连 续 ),618 一 620 
discrete( 离 散 ),612 
standardized( 标 准 化 ),622,626 
variable(logicai)( 逻 辑 变量 ) ,432 
variable-free logic( 无 变量 逻辑 ,参见 logic, propositional) 
variables(( 多 ) 恋 量 ) 
uncorrelated( 不 相关 ) ,614 
variance( 方 差 ),32,466,611 
addition( 加 法 ) ,95 
bias( 偏 差 ) , 89 
nonlinearity( 非 线性 ) ,612 
Parzen estimate( Parzen fit) 
convergence Me HE) , 167 
two variables( 双 变量 ),613 
variance impurity( 方 差 不 纯度 ,参见 impurity, variance) 
vector( [a] HE) ,604 
addition( 加 法 ),605 
augmented( 增 广 ,参见 augmented vector) 
colinearity( 共 线性 ) ,606 
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linearly independent (4% tE % 3) , 606 

mean( 均 值 ) ,617 

orthogonal ( IF 3@) , 606 

parameter( BMW) ,85,92 

separating( 分 离 ,参见 vector, solution) 

solution( 解 ),223 

space( 空 间 ) ,606 

span( 生 成 ) ,606 

support( 支 持 , 参 见 support vector) 

target( 目 标 ) ,289 

weight( 权 值 ) ,216 
vector product( 向 量 积 ,外 积 , 参 见 outer product) 
vector quantization( 向 量 量化 ),582 
Venn diagram( #4 AFA) ,551 
vigilance ( $k) ,565 
virtual value( 虚 值 ) ,410 
visible unit( 可 见 单 元 ) ,361 
Voronoi( Voronoi Æ) 

cell( 单 元 ) ,178 

tesselation( 网 格 ) ,178,528 
voting-based query selection( 基 于 投票 的 查询 选择 ,参见 
query , selection, voting-based) 


VQ( 回 量 量化 ,参见 vector quantization) 
W 


Wald statistic( Wald 统计 ) ‚331,332 

Wald test( Wald 检验 ),335 

War and Peace(« 战争 与 和 平 》) , 414 

weak learner( 弱 学 习 机 ,参见 learner, weak) 
weight( 加 权 》 


decay (EW) .314~315,335 

excitatory (M A ) , 284 

inhibitory (3M 4) ) , 284 

initialization ( 4 4E) ,311 

sharing (JE) , 328 

normalization( H — 4h) ,560 

space( 空 间 ) ,224 

vector( 同 量 ) ,230 
whitening transform (白化 变换 ,参见 transform, whiten- 
ing) 
wild shot pattern( 出 格 模 式 , 参 见 outlier pattern) 
window function( 窗 函数 ),577 

Gaussian( 商 斯 ) ,198 
winner-take-all( i 4 4$) , 305,497 
Winnow algorithm( Winnow 算法 ),234 

balanced( 平 衡 ) ,234,279 

gap( [i] HB) ,235 
within-class scatter( 类 内 散布 ,参见 scatter, within-class) 
word( 字 ) ,413 
wrapper( 打 包 ) , 380 


X 


XOR problem( 异 或 问题 ) 
error surface( 误 差 面 ),298 
network ( 网络 ) ,285 


Z 


z score(z 记分 ) ,622 
zero-information distribution( 零 信息 的 分 布 ) , 182 
zero-one loss(0-1 损失 ,参见 loss, zero-one) 


